一文尽览！近一年自动驾驶VLA优秀工作汇总~

自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式，视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作，重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene，解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法：导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能，实现超视距推理能力[2][6] - 在NuInstruct基准测试中，Qwen2.5-7B模型表现最佳，多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA，统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练，在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力，可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据，通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS，创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集，包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准，包含16,185个QA对，覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术，但车端必要性存疑[50] - 时序处理研究不足，与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平，验证技术可行性[50]