Workflow
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心·2025-09-19 07:33

❝ 自动驾驶VLA的思维链应该更灵活。 尽管思维链(Chain-of-Thought, CoT)等推理技术已广泛应用于视觉-语言-动作(Vision-Language-Action, VLA)模型,并在端到端自动驾驶中展现出良好性能,但现有 融合CoT推理的方法在简单场景中往往表现不佳——不仅未提升决策质量,还会引入不必要的计算开销。 为解决这一问题,清华&小米等团队提出 AdaThinkDrive :一种受"快慢思考"理论启发、具备双模式推理机制的新型VLA框架。具体而言,该框架首先在大规模自动驾 驶(Autonomous Driving, AD)场景上进行预训练,通过问答和轨迹数据集获取世界知识与驾驶常识;在SFT阶段,引入包含"快速回答(无CoT)"和"慢速思考(有 CoT)"的双模式数据集,使模型能够区分需要推理的场景;此外,本文还提出"自适应思考奖励策略",并结合GRPO通过比较不同推理模式下的轨迹质量,对模型选择 性应用CoT的行为进行奖励。在Navsim基准测试集上的大量实验表明,AdaThinkDrive的预测驾驶模型评分(Predictive Driver Model Score, PDMS ...