文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作,指出行业研究重点已从传统的监督微调转向强化学习,以提升模型的泛化与推理能力,并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司,代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献:提出双专家架构,通过决策专家进行场景推理与语言决策,动作专家将决策映射为轨迹,将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现:在Bench2Drive基准上,使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率,超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献:采用离散掩码扩散迭代优化未来轨迹,结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现:在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献:设计潜在思维链推理机制,使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来,提升推理效率与精度 [12] - 性能表现:在PhysicalAI-AV数据集上验证,相比文本链推理基线,实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献:设计可学习动作查询与视觉语言模型跨注意力交互,支持一步并行生成连续轨迹;融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略:采用监督微调与强化学习两阶段训练,结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献:构建因果链数据集,提供高质量的决策接地因果推理轨迹;设计模块化架构,融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现:实现99毫秒的实时推理延迟;在闭环仿真中,越野率降低35%,近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献:设计“快速响应/慢速思考”双模式自适应推理机制,让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现:在Navsim基准测试中取得90.3的PDMS分数,较最优视觉基线提升1.7点,同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献:构建nuScenesR²-6K数据集,采用“观察-计算-逻辑推理-反思验证”四步逻辑链;设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现:在nuScenes和Waymo数据集上实现最先进性能,7B版本平均L2误差低至0.20米,零样本迁移能力突出,较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世(中国)投资有限公司、上海大学、上海交通大学、博世汽车部件(苏州)有限公司、清华大学) - 核心贡献:提出轻量级奖励世界模型,基于逆强化学习从多模态数据中学习奖励结构,规避对仿真器的依赖;设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现:在NAVSIM v2基准上取得最先进性能,并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献:首次将主动感知应用于高级行为规划,设计含检索视图、感兴趣区域检查等工具的视觉工具包;提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现:仅3B参数就达到与GPT-5和人类驾驶相当的性能,在Drive-Internal测试集上使用工具后准确率提升6.07%,推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献:构建涵盖交通知识理解等五大领域的RP-COT数据集,提供长短链推理标注;设计基于GRPO的强化学习机制,结合多维度奖励对齐推理与规划 [37] - 性能表现:在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献:设计生成、精炼、质控三阶段分层数据管道,构建大规模视觉问答数据集以注入驾驶先验;提出认知引导扩散规划器,将视觉语言模型语义转化为连续轨迹 [38] - 性能表现:在NAVSIM等基准实现最先进性能 [38]
业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心·2025-12-24 17:22