百度X-Driver:可闭环评测的VLA
自动驾驶之心·2025-12-28 11:30

文章核心观点 - 哈工大与百度联合提出的X-Driver是一个专为闭环自动驾驶设计的统一多模态大语言模型框架,其核心创新在于利用思维链推理和自回归建模来增强感知与决策,旨在解决现有基于MLLM的自动驾驶方案在闭环评估中成功率低、存在幻觉和缺乏稳定轨迹输出的问题 [2][3] 方法架构 - 系统利用集成思维链推理机制的多模态大语言模型来执行场景理解、导航指令解释和交通规则理解 [6] - 输入为摄像头图像数据以及表示导航命令和提示的文本,输出为思维链推理过程和最终的驾驶决策 [6] - 系统以闭环方式运行,执行的动作影响环境并生成新的感知数据以进行持续优化 [7] 核心模型与技术细节 - 模型基于LLaVA架构,使用CLIP的ViT-L/14图像编码器提取图像特征,并通过映射网络将其对齐到文本嵌入空间,再输入微调后的LLaMa网络 [9] - 采用连续图像编码方法,避免使用VQ-VAE等离散编码方法导致的关键信息丢失,例如能更有效地保留远处红绿灯的信息 [13][14] - 通过监督微调整合高质量的思维链提示数据,将驾驶任务分解为对象检测、红绿灯状态、交通标志和车道信息等子任务,鼓励模型进行结构化逻辑思维 [11][12][17] 训练与推理过程 - 监督微调训练涵盖对复杂3D驾驶环境的精确感知,包括动态物体的位置、速度、轨迹预测,以及实时障碍物识别和空间定位 [15] - 训练还包括对导航指令的深入理解和对交通法规的遵守,如识别各类交通信号灯状态、解读监管/警告/信息标志,以及准确的车道检测与决策 [15] - 推理时,模型对单帧图像和当前车速进行多模态融合分析,在思维链提示指导下,逐步推理对象位置、类别、关注必要性,并据此更新最终驾驶决策 [18][20][23] 闭环仿真实验与性能评估 - 在CARLA仿真环境中使用Bench2Drive数据集进行闭环测试,该数据集包含超过200万帧仿真数据,用于评估城市、高速公路及恶劣天气等不同条件下的性能 [8][27] - 评估关键指标为驾驶评分和成功率,驾驶评分综合考虑路线遵守、速度控制和交通规则合规性,成功率衡量无碰撞或重大违规完成任务的百分比 [28] - 定量结果显示,在Bench2Drive数据集上,使用500K和2.2M样本与UniAD对比,整合思维链推理的X-Driver版本在驾驶评分和成功率上均有提升 [29] - 具体数据表明,在bench2drive220任务中,UniAD的成功率为17.5%,而X-Driver无思维链版本为15.2%,整合思维链的版本提升至18.1% [30] - 在bench2drive50任务中,UniAD成功率为22.0%,X-Driver无思维链版本为19.8%,整合思维链的版本提升至24.0% [30] 现状总结与行业洞察 - 当前在闭环仿真器上的自动驾驶成功率仍处于较低水平,约为20%左右 [30][31] - 使用仿真数据测试与现实世界存在差距,不能完全反映实际性能 [31] - 目前行业倾向将多模态大语言模型结合思维链推理生成的驾驶决策,作为慢系统中规划轨迹的初始解,用以加速下游的规划搜索过程,而非直接用于控车 [31]