会自检的VLA！ReflectDrive：更安全更高效scaling的端到端框架（理想&清华）

文章核心观点 - 提出ReflectDrive新型学习框架，通过离散扩散的反思机制实现安全轨迹生成，解决端到端自动驾驶在安全性和多模态性能方面的核心挑战 [2][3] - 该方法首次将离散扩散应用于端到端自动驾驶轨迹生成，集成反思机制实现无梯度安全引导再生，在NAVSIM基准测试中展现出接近人类水平的安全关键轨迹生成能力 [7][13][35] - 框架核心是将二维驾驶空间离散化构建动作代码本，通过微调预训练扩散语言模型用于规划任务，结合目标条件生成和安全引导再生两阶段优化 [6][14][20] 技术方案创新点 - 离散化表示：对二维驾驶空间进行离散化处理，将连续路径点映射为离散令牌对，实现鸟瞰图空间中高效搜索可行解 [15] - 反思推理机制：包含目标条件轨迹生成与安全引导再生两个阶段，通过评分函数引导实现迭代自校正，无需梯度计算 [20][22][25] - 安全锚点搜索：对于不安全路径点，在曼哈顿邻域内进行局部搜索确定更优令牌对，作为轨迹修复的安全锚点 [26][27] 性能评估结果 - 基准测试表现：在NAVSIM基准测试中，ReflectDrive的PDMS综合评分达91.1，使用真值智能体信息时提升至94.7，接近人类水平的94.8 [35][38] - 安全指标提升：与无反思推理版本相比，DAC提升3.9个百分点至99.3，TTC提升1.3个百分点至93.5，NC提升0.8个百分点至97.7 [37] - 进度优化效果：EP指标提升7.9个百分点至86.9，使用真值智能体时进一步提升至88.9，超过人类水平的87.5 [37][38] 技术优势特点 - 多模态行为建模：通过目标条件生成捕捉多样驾驶行为，支持在交叉口选择不同转向方向等大规模调整 [23][24] - 实时性能优化：局部搜索在小型离散邻域进行，大多数安全违规可在1-3次反思迭代内解决，推理开销可控 [31] - 修复能力强化：利用离散扩散模型的修复能力，以安全锚点为条件对轨迹片段再生，保持全局连贯性 [11][26] 应用前景展望 - 可扩展架构：离散令牌结构支持并行解码和双向特征融合，实现可扩展训练，为自动驾驶系统提供可靠解决方案 [3][19] - 实际部署潜力：实验表明通过更准确的检测与预测结果，系统性能可进一步提升，有望全面超越人类驾驶性能 [38][44]