业内首个RL+VLA汇总：强化学习如何推动 VLA 走向真实世界？

文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作，指出行业研究重点已从传统的监督微调转向强化学习，以提升模型的泛化与推理能力，并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司，代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献：提出双专家架构，通过决策专家进行场景推理与语言决策，动作专家将决策映射为轨迹，将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现：在Bench2Drive基准上，使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率，超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献：采用离散掩码扩散迭代优化未来轨迹，结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现：在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献：设计潜在思维链推理机制，使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来，提升推理效率与精度 [12] - 性能表现：在PhysicalAI-AV数据集上验证，相比文本链推理基线，实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献：设计可学习动作查询与视觉语言模型跨注意力交互，支持一步并行生成连续轨迹；融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略：采用监督微调与强化学习两阶段训练，结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献：构建因果链数据集，提供高质量的决策接地因果推理轨迹；设计模块化架构，融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现：实现99毫秒的实时推理延迟；在闭环仿真中，越野率降低35%，近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献：设计“快速响应/慢速思考”双模式自适应推理机制，让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现：在Navsim基准测试中取得90.3的PDMS分数，较最优视觉基线提升1.7点，同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献：构建nuScenesR²-6K数据集，采用“观察-计算-逻辑推理-反思验证”四步逻辑链；设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现：在nuScenes和Waymo数据集上实现最先进性能，7B版本平均L2误差低至0.20米，零样本迁移能力突出，较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世（中国）投资有限公司、上海大学、上海交通大学、博世汽车部件（苏州）有限公司、清华大学) - 核心贡献：提出轻量级奖励世界模型，基于逆强化学习从多模态数据中学习奖励结构，规避对仿真器的依赖；设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现：在NAVSIM v2基准上取得最先进性能，并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献：首次将主动感知应用于高级行为规划，设计含检索视图、感兴趣区域检查等工具的视觉工具包；提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现：仅3B参数就达到与GPT-5和人类驾驶相当的性能，在Drive-Internal测试集上使用工具后准确率提升6.07%，推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献：构建涵盖交通知识理解等五大领域的RP-COT数据集，提供长短链推理标注；设计基于GRPO的强化学习机制，结合多维度奖励对齐推理与规划 [37] - 性能表现：在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献：设计生成、精炼、质控三阶段分层数据管道，构建大规模视觉问答数据集以注入驾驶先验；提出认知引导扩散规划器，将视觉语言模型语义转化为连续轨迹 [38] - 性能表现：在NAVSIM等基准实现最先进性能 [38]