Workflow
交互式推理
icon
搜索文档
MTRDrive:一种具备动态交互式推理的自动驾驶VLA框架(清华&小米)
自动驾驶之心· 2025-09-29 07:33
文章核心观点 - 视觉-语言-动作模型(VLA)是提升自动驾驶长尾场景推理能力的关键路径,但现有方法在长时程与高层级行为决策时面临显著挑战,尤其在极少样本或零样本的复杂场景下泛化能力有限[3] - 清华、小米汽车、麦吉尔大学和威斯康星大学麦迪逊分校的团队联合提出MTRDrive框架,将自动驾驶建模为动态交互式推理过程,突破传统静态单步决策的局限[4] - MTRDrive通过记忆-工具协同机制,其中工具库调用提升模型感知准确性,记忆模块通过对驾驶经验的持续增强提升推理可靠性,在长尾与OOD场景中的泛化能力与稳健性显著提升[4] 行业技术痛点分析 - 现有VLA模型在长尾场景中容易出现幻觉问题,在出现频率低但安全性要求高的驾驶情境中,模型容易做出脱离现实的"幻觉式推理",缺乏自我校正和外部验证能力[5] - 现有思维链增强技术大多依赖形式化结构化认知,未能深入捕捉模型与环境交互时的深层因果关系,这种因果推理缺失导致推理可靠性和泛化能力受限[5] - 当前VLMs的性能与实际部署所需的可靠性之间存在显著差距,模型具有脆弱性,常出现视觉幻觉现象,且在分布外场景中表现不佳,微小错误可能导致灾难性后果[8] MTRDrive框架设计原理 - MTRDrive框架基于"交互式推理"原则设计,赋予智能体主动检索驾驶经验和使用工具查询环境的能力,从静态决策模型转向动态交互式模型[9] - 框架包含两个核心组件:存储结构化驾驶经验的"驾驶经验库"和利用这些经验进行工具交互与决策的"经验驱动规划模块"[15] - 驾驶经验库构建采用CLIP预训练视觉编码器实现高效语义场景编码,通过余弦相似度计算场景间相似性,支持大规模低延迟相似性检索[17] - 结构化经验表示将每条经验形式化为元组<场景描述, 推理过程, 高层决策, 工具使用记录, 元数据>,使智能体能学习完成任务的方法并理解场景上下文[19] 技术创新点 - 设计了经验驱动的工具交互方法,通过检索Top-K个最相似过往场景,将场景中记录的推理过程和工具使用模式作为强上下文先验,引导VLM做出更合理的工具部署决策[21] - 采用两阶段训练流程:第一阶段为监督微调解决"冷启动"问题,教会模型工具使用和记忆整合的基础语法;第二阶段通过强化学习微调基于任务特定奖励信号优化决策能力[24][28][29] - 设计了专门的"格式奖励函数"引导模型学会策略性调用经验,完整的奖励函数由格式奖励和任务完成奖励组合而成,为模型提供明确信号指导其完成元认知任务[30][32] 实验验证结果 - 在NAVSIM基准数据集上,MTRDrive的规划准确率达到82.6%,是Qwen2.5-VL-72B(37.8%)的两倍多[40] - 在具有挑战性的RoadWork零样本场景中,MTRDrive规划准确率达到33.5%,高于性能最强的基准模型(29.7%)[40] - 消融实验显示,驾驶经验模块将RoadWork零样本场景中的规划准确率从17.3%翻倍至33.5%,证明经验检索机制是模型将所学技能应用于新场景的核心组件[44] - 在轨迹预测任务中,完整MTRDrive模型取得88.3的PDMS得分,达到与WoTE等专用方法相当的当前最优性能[47] 数据集建设贡献 - 基于原始RoadWork数据集构建了新的基准数据集Roadwork-VLM,利用Qwen2.5-VL-72B模型对整个数据集进行重新标注,生成详细的场景描述、高层导航指令和完整思维链推理序列[37] - Roadwork-VLM形成了完整的类人化端到端驾驶VLM数据集,可用于测试智能体在零样本设置下执行复杂高层行为决策的能力,后续将开源以推动领域研究[37]