做自动驾驶VLA的这一年
自动驾驶之心·2025-11-19 08:03

文章核心观点 - 视觉-语言-动作模型是一种整合视觉、语言和动作输出的多模态基础模型,旨在实现从感知到控制的端到端自动驾驶 [4][5][7] - VLA模型被视为继模块化流水线、端到端模型和视觉语言模型之后的下一代自动驾驶范式,能够解决传统方法在可解释性、泛化能力和行动执行方面的不足 [9][10][11] - 行业主流算法供应商和主机厂均在积极布局VLA技术,理想汽车和小鹏汽车已实现VLA模型的量产上车,标志着该技术从学术研究走向工业应用 [3][60][67] VLA定义与概念 - VLA模型被定义为"多模态大脑",能够处理图像或视频输入、语音或文字指令,并直接输出低层机器人动作或高层决策 [4][5][7] - 模型输入包括视觉画面、传感器数据和语言指令,输出可分为低阶控制信号和高阶轨迹规划两类 [13][16][18] - 以自动驾驶车辆为例,VLA不仅能执行驾驶任务,还能解释行为原因并理解人类自然语言指令,实现"看、想、做"的统一 [8] VLA出现背景与发展阶段 - 自动驾驶技术演进分为四个阶段:模块化流水线、端到端模型、视觉语言模型和VLA模型,VLA的出现旨在解决前代技术死板、黑箱或缺乏直接行动能力的问题 [9][10][11] - VLA模型继承大模型语义先验,能够借助常识推理处理罕见长尾场景,提升系统在复杂环境下的适应性和安全性 [10] VLA架构拆解 输入端 - 视觉输入包括前向和环视摄像头图像,常转换为BEV或体素表示以理解空间关系 [13] - 传感器输入涵盖LiDAR、RADAR、IMU和GPS,与视觉数据互补提升系统鲁棒性,部分企业如小鹏采用纯视觉方案 [13] - 语言输入支持导航指令、问答交互和规则约束,未来可能扩展至车内自然对话 [13] 中间层 - 视觉编码器使用DINOv2、ConvNeXt-V2、CLIP等预训练模型提取特征,部分模型进行跨模态对齐 [14] - 语言处理器基于LLaMA、GPT等LLM变体,通过指令微调、LoRA、RAG等技术适配驾驶场景,具备链式思维推理能力 [14] - 动作解码器采用序列预测、扩散模型或分层控制结构生成轨迹或控制信号 [14][15] 输出端 - 低层输出直接控制油门、刹车、方向角等执行器,保证即时反应速度 [18] - 高层输出规划未来2-5秒连续路径,便于与现有自动驾驶系统融合 [18] VLA发展编年史 LINGO系列(Wayve) - LINGO-1(2023年9月)首次将自然语言引入自动驾驶,具备可解释驾驶、视觉问答和驾驶知识推理能力,但功能以评论动作为主 [20][21][22][23] - LINGO-2(2024年10月)实现指令跟随和交互式驾驶,能理解并执行"在下一个路口右转"等自然语言指令,标志语言与驾驶深度结合 [35][36][37] CarLLaVA(2024年6月) - 基于视觉语言模型的端到端系统,仅使用摄像头输入,在CARLA挑战赛中获得第一名,为纯视觉方案提供实践基础 [25][26][27] CoVLA(2024年8月) - 提出包含超过80小时驾驶场景的大规模多模态数据集,通过自动化流程生成视觉、语言和行动标注,解决数据稀缺问题 [31][32] SimLingo(2025年3月) - 强调语言与行动对齐,通过"Action Dreaming"任务确保指令理解直接影响决策,在CARLA仿真器中达到顶尖性能 [39][40][42][46] OpenDriveVLA(2025年3月) - 融合多视角图像、3D环境信息和驾驶指令,采用分层特征对齐和交互建模,在nuScenes数据集上实现最优轨迹预测 [44][48][51] DriveMoE(2025年5月) - 引入混合专家模型,动态选择摄像头视图和驾驶技能专家,提升计算效率和复杂场景处理能力 [52][53] AutoVLA(2025年5月) - 结合自适应推理与强化微调,支持"快速思维"和"慢速思维"双模式,在多个数据集上实现优越的推理与轨迹生成性能 [55][56][57] 主机厂VLA方案 理想汽车MindAVLA - 采用MoE架构和3D高斯表达,具备思维链推理和扩散轨迹生成能力,通过三阶段训练模拟人类学习过程 [60][62][63][65] - 已实现量产上车,依托自研推理引擎和INT4量化技术完成车端部署 [65] 小鹏汽车VLA 2.0 - 实现端到端直连,跳过语言转译环节直接生成驾驶动作,建立统一智能基底支持多设备驱动 [69] - 训练数据接近1亿段真实驾驶视频,基础模型参数量达720亿,每5天完成一次全链路更新 [69]