MindDrive
搜索文档
业内首个RL+VLA汇总:强化学习如何推动 VLA 走向真实世界?
自动驾驶之心· 2025-12-24 17:22
文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作,指出行业研究重点已从传统的监督微调转向强化学习,以提升模型的泛化与推理能力,并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司,代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献:提出双专家架构,通过决策专家进行场景推理与语言决策,动作专家将决策映射为轨迹,将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现:在Bench2Drive基准上,使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率,超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献:采用离散掩码扩散迭代优化未来轨迹,结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现:在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献:设计潜在思维链推理机制,使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来,提升推理效率与精度 [12] - 性能表现:在PhysicalAI-AV数据集上验证,相比文本链推理基线,实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献:设计可学习动作查询与视觉语言模型跨注意力交互,支持一步并行生成连续轨迹;融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略:采用监督微调与强化学习两阶段训练,结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献:构建因果链数据集,提供高质量的决策接地因果推理轨迹;设计模块化架构,融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现:实现99毫秒的实时推理延迟;在闭环仿真中,越野率降低35%,近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献:设计“快速响应/慢速思考”双模式自适应推理机制,让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现:在Navsim基准测试中取得90.3的PDMS分数,较最优视觉基线提升1.7点,同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献:构建nuScenesR²-6K数据集,采用“观察-计算-逻辑推理-反思验证”四步逻辑链;设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现:在nuScenes和Waymo数据集上实现最先进性能,7B版本平均L2误差低至0.20米,零样本迁移能力突出,较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世(中国)投资有限公司、上海大学、上海交通大学、博世汽车部件(苏州)有限公司、清华大学) - 核心贡献:提出轻量级奖励世界模型,基于逆强化学习从多模态数据中学习奖励结构,规避对仿真器的依赖;设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现:在NAVSIM v2基准上取得最先进性能,并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献:首次将主动感知应用于高级行为规划,设计含检索视图、感兴趣区域检查等工具的视觉工具包;提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现:仅3B参数就达到与GPT-5和人类驾驶相当的性能,在Drive-Internal测试集上使用工具后准确率提升6.07%,推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献:构建涵盖交通知识理解等五大领域的RP-COT数据集,提供长短链推理标注;设计基于GRPO的强化学习机制,结合多维度奖励对齐推理与规划 [37] - 性能表现:在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献:设计生成、精炼、质控三阶段分层数据管道,构建大规模视觉问答数据集以注入驾驶先验;提出认知引导扩散规划器,将视觉语言模型语义转化为连续轨迹 [38] - 性能表现:在NAVSIM等基准实现最先进性能 [38]
华科&小米联合提出MindDrive:首个证实在线强化学习有效性的VLA框架......
自动驾驶之心· 2025-12-17 08:03
文章核心观点 - 华科与小米团队提出了一种名为MindDrive的新型自动驾驶视觉-语言-动作框架,该框架创新性地采用在线强化学习进行训练,有效解决了传统模仿学习方法面临的分布偏移和因果混淆等挑战,并在Bench2Drive基准测试中取得了优异的性能,驾驶得分达78.04分,成功率达55.09% [2][4][8][17][34] 背景与挑战 - 当前自动驾驶视觉-语言-动作模型主要依赖模仿学习,这会导致因果混淆和分布偏移,进而在闭环驾驶中产生不可逆的误差累积 [4] - 将在线强化学习应用于自动驾驶VLA模型面临连续动作空间中探索效率低下的难题 [2] - 现有强化学习应用分为两类:在动作空间使用离线强化学习,限制了模型与环境交互探索的能力;在语言空间使用在线强化学习,但难以将驾驶决策有效映射为类人的具体驾驶轨迹 [5] MindDrive框架设计 - MindDrive的核心架构包含两个共享视觉编码器和文本分词器、但配备不同LoRA参数的大语言模型:一个作为决策专家负责场景推理和驾驶决策,另一个作为动作专家负责将语言决策动态映射为可行驶轨迹 [2][8][11] - 该框架通过将轨迹级奖励反馈至推理空间,使模型能在有限的离散语言驾驶决策集合上进行试错学习,而非直接在连续动作空间中操作,从而平衡了最优决策、类人驾驶行为与探索效率 [2][8] - 训练过程分为两个阶段:首先通过模仿学习在决策专家推断的元动作与动作专家输出的轨迹之间建立一一对应关系,为在线强化学习提供高质量候选轨迹;随后利用在线强化学习对决策专家进行优化 [8][11][18] 在线强化学习实施方案 - 基于CARLA仿真器构建了面向VLA模型的在线闭环强化学习框架,定义了明确的任务成败信号,并将过程划分为数据收集和训练两个阶段 [8] - 采用稀疏奖励函数:成功到达目的地奖励+1,触发碰撞、闯红灯等预定义惩罚事件奖励-1,其他情况奖励为0 [25][26] - 采用近端策略优化算法优化策略,并引入KL散度损失作为正则化项以缓解强化学习微调阶段的灾难性遗忘问题 [28][30][32] - 通过视觉编码器预计算场景令牌作为紧凑状态表示,降低了内存开销,支持大批量训练,并将过程表述为标准马尔可夫决策过程 [8][15] 实验结果与性能 - 在Bench2Drive基准测试中,MindDrive取得了78.04的驾驶得分和55.09%的成功率 [2][17][34] - 即使采用轻量级的Qwen2-0.5B参数模型,其驾驶得分比相同参数规模的强基线模型高出5.15分,成功率高出9.26个百分点 [2][34] - 相较于仅使用模仿学习的版本,在线强化学习使驾驶得分提升2.19分,成功率提升5.79个百分点 [34][38] - 在视觉-语言-动作范式中,MindDrive性能与使用更大规模模型的最先进模仿学习方法相当,并超越了其他离线强化学习方法 [34][38] 消融实验发现 - 逐步引入碰撞、交通灯、路线偏离、停车等惩罚事件能持续提升模型性能,最终版本相比模仿学习基准成功率提升5.79个百分点 [36] - 在线强化学习过程中,将滚动次数设为2次能取得最佳性能,过多滚动会导致灾难性遗忘和性能下降 [37] - 采用KL散度正则化的PPO算法相比基础PPO和熵正则化PPO,能更有效地稳定训练,驾驶得分分别提升3.31分和2.33分 [40] - 使用大语言模型生成的元动作作为高层指令,相比使用导航指令,驾驶得分提升7.74分;在此基础上引入在线强化学习可进一步优化元动作选择 [41] 意义与贡献 - 据研究团队所知,这是首个证实在线强化学习对自动驾驶视觉-语言-动作模型有效性的研究,也是首个在仿真器中通过在线强化学习训练的基于VLA的自动驾驶模型 [2][8][44] - 该工作为自动驾驶领域带来了新的启发,展示了通过语言接口和在线试错来提升模型因果推理与决策鲁棒性的潜力 [8][44]