Workflow
会自检的VLA!ReflectDrive:更安全更高效scaling的端到端框架(理想&清华)
自动驾驶之心·2025-09-28 07:33

文章核心观点 - 提出ReflectDrive新型学习框架,通过离散扩散的反思机制实现安全轨迹生成,解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成,集成反思机制实现无梯度安全引导再生,在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本,通过微调预训练扩散语言模型用于规划任务,结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - 离散化表示:对二维驾驶空间进行离散化处理,将连续路径点映射为离散令牌对,实现鸟瞰图空间中高效搜索可行解 [15] - 反思推理机制:包含目标条件轨迹生成与安全引导再生两个阶段,通过评分函数引导实现迭代自校正,无需梯度计算 [20][22][25] - 安全锚点搜索:对于不安全路径点,在曼哈顿邻域内进行局部搜索确定更优令牌对,作为轨迹修复的安全锚点 [26][27] 性能评估结果 - 基准测试表现:在NAVSIM基准测试中,ReflectDrive的PDMS综合评分达91.1,使用真值智能体信息时提升至94.7,接近人类水平的94.8 [35][38] - 安全指标提升:与无反思推理版本相比,DAC提升3.9个百分点至99.3,TTC提升1.3个百分点至93.5,NC提升0.8个百分点至97.7 [37] - 进度优化效果:EP指标提升7.9个百分点至86.9,使用真值智能体时进一步提升至88.9,超过人类水平的87.5 [37][38] 技术优势特点 - 多模态行为建模:通过目标条件生成捕捉多样驾驶行为,支持在交叉口选择不同转向方向等大规模调整 [23][24] - 实时性能优化:局部搜索在小型离散邻域进行,大多数安全违规可在1-3次反思迭代内解决,推理开销可控 [31] - 修复能力强化:利用离散扩散模型的修复能力,以安全锚点为条件对轨迹片段再生,保持全局连贯性 [11][26] 应用前景展望 - 可扩展架构:离散令牌结构支持并行解码和双向特征融合,实现可扩展训练,为自动驾驶系统提供可靠解决方案 [3][19] - 实际部署潜力:实验表明通过更准确的检测与预测结果,系统性能可进一步提升,有望全面超越人类驾驶性能 [38][44]