全球首个自动驾驶VLA综述重磅发布：VLA自驾模型全面拆解~

自动驾驶范式演进 - 端到端自动驾驶模式将传感器输入直接映射到驾驶动作，架构为环境信息输入→端到端网络→驾驶动作，但存在可解释性差和难以处理长尾场景的问题 [3] - 用于自动驾驶的视觉语言模型引入语言理解和推理能力，架构为环境信息输入→VLM→推理链/多任务→非直接控制输出，提升了系统可解释性和泛化能力，但存在语言输出与实际控制脱节的行动鸿沟 [3] - 视觉-语言-行动模型是当前最前沿范式，在统一策略中融合视觉感知、语言理解和动作执行，架构为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作，能理解高级指令、推理复杂场景并自主决策 [3] VLA4AD架构范式 - 多模态输入包括视觉数据（从单前视摄像头发展到多摄像头环视系统）、其他传感器数据（激光雷达、雷达、IMU、GPS及本体感知数据）和语言输入（从直接导航指令演进到对话式推理和语音指令） [9] - 核心架构模块包含视觉编码器（使用DINOv2或CLIP等大型自监督模型）、语言处理器（使用LLaMA2或GPT系列模型并通过指令微调适应领域）和动作解码器（通过自回归令牌器、扩散模型头或分层控制器生成控制输出） [7][9] - 驾驶输出形式从低阶控制（如方向盘转角、油门刹车信号）演进为高阶规划（如轨迹或路径点），后者具有更好可解释性、拓展能力和长时程推理能力 [10][18] VLA模型发展阶段 - 阶段一（语言模型作为解释器）采用冻结视觉模型和LLM解码器生成场景描述，代表工作DriveGPT-4可生成高阶操纵标签或场景描述，但存在延迟问题和效率低下局限 [16][22] - 阶段二（模块化VLA模型）将语言作为主动规划组件，代表工作包括OpenDriveVLA生成可读中间路径点、CoVLA-Agent将动作Token映射到轨迹、DriveMoE动态选择子规划器、SafeAuto引入符号化交通规则验证计划 [19][22] - 阶段三（统一端到端VLA模型）构建单一网络直接映射传感器输入到控制信号，代表工作包括EMMA联合执行检测和规划、SimLingo/CarLLaVA通过行动构想技术耦合语言与轨迹、ADriver-I利用扩散技术预测未来画面 [20][22] - 阶段四（推理增强VLA模型）将LLM置于控制环路核心进行长时程推理，代表工作ORION结合记忆模块输出轨迹和解释、Impromptu VLA通过思维链对齐行动、AutoVLA融合CoT推理和轨迹规划 [21][22] 数据集与基准 - BDD100K/BDD-X提供10万个真实驾驶视频和7千个带文本解释片段，被CoVLA-Agent和SafeAuto等模型采用 [25][27] - nuScenes包含1000个场景的多传感器数据，是VLA4AD模型综合评估的重要平台 [25][33] - Bench2Drive是基于CARLA的闭环驾驶基准，包含44种场景和220条路线，DriveMoE通过混合专家架构在该基准领先 [25][33] - Reason2Drive提供60万个带思维链风格问答的视频-文本对，并引入一致性评估指标 [25][33] - Impromptu VLA专注边缘场景，包含8万个驾驶片段并配有专家轨迹和问答对，能显著提升闭环安全性 [25][33] - DriveAction包含2600个场景和1.62万个带动作标签的问答对，提供基于人类偏好决策的评估协议 [25][33] 挑战与未来方向 - 六大挑战包括鲁棒性与可靠性（语言模型幻觉和环境噪声问题）、实时性能（30Hz计算瓶颈和模型优化需求）、数据与标注瓶颈（三模态数据稀缺和合成数据局限）、多模态对齐（以摄像头为中心和融合技术不成熟）、多智能体社会复杂性（协作难题和交通语言缺失）以及领域自适应与评估（泛化能力不足和标准缺失） [30][31][32][34][35] - 五大未来方向包括构建基础驾驶大模型（GPT风格骨干网络）、开发神经-符号安全内核（结合神经网络灵活性和符号逻辑可验证性）、实现车队级持续学习（通过语言片段描述新情况）、建立标准化交通语言（定义规范意图集）以及提升跨模态社交智能（理解手势和声音等非语言线索） [36][38]