纯视觉最新SOTA！AdaThinkDrive：更灵活的自动驾驶VLA思维链（清华&小米）

自动驾驶VLA技术突破 - 提出AdaThinkDrive框架通过双模式推理机制实现自适应思考在简单场景采用快速回答模式在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略结合GRPO算法优化模型选择性应用CoT的行为实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程：大规模驾驶数据预训练获取世界知识与驾驶常识双模式SFT数据集微调强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证较"永不思考"基线PDMS提升2.0分较"始终思考"基线提升1.4分在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分强化学习阶段进一步提升2.8分自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习分为简洁推理、动态早期终止和按需推理三类需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]