Workflow
清华&小米团队发布VLA模型综述
理想TOP2·2025-07-04 10:54

自动驾驶技术范式演进 - 自动驾驶技术正从感知-控制向认知智能演进,最新模型分为端到端自动驾驶、用于自动驾驶的视觉语言模型(VLMs for AD)和视觉-语言-行动模型(VLA for AD)三大范式[1][3] - 端到端自动驾驶将传感器输入直接映射到驾驶动作,高效但缺乏可解释性[3] - 视觉语言模型引入视觉语言模型理解复杂交通场景,提升可解释性但存在"行动鸿沟"[3] - 视觉-语言-行动模型整合视觉感知、语言理解和动作执行,实现感知、推理和行动闭环[3] VLA自动驾驶模型核心架构 - VLA模型由输入、处理、输出三部分构成,整合环境感知、指令理解与车辆控制[4] - 多模态输入包括视觉与传感器数据(多摄像头环视系统、激光雷达、雷达、IMU、GPS)和语言指令(直接指令、环境查询、任务级指令、对话式推理)[5][6][7][9][10] - 核心处理模块包括视觉编码器(使用DINOv2或CLIP等模型)、语言处理器(使用LLaMA2或GPT系列)和动作解码器(自回归令牌化、扩散模型、分层控制器)[11][12][13][14] - 驾驶输出包括低阶动作(方向盘转角、油门刹车)和轨迹规划(未来路径点)[15] VLA自动驾驶模型发展阶段 - 第一阶段:语言作为解释器,生成自然语言描述但不直接参与控制,存在"语义鸿沟"[19] - 第二阶段:模块化VLA,语言成为主动规划组件但存在多阶段处理延迟和级联错误风险[20][21] - 第三阶段:统一端到端VLA,传感器输入直接映射到驾驶动作但长时程规划和解释能力有限[22] - 第四阶段:推理增强VLA,LLM成为控制环路核心,具备长时程推理、记忆和交互能力[23] 数据集与基准 - 当前数据集生态系统覆盖大规模真实世界数据(nuScenes, BDD-X)、关键场景与安全测试(Impromptu VLA, Bench2Drive)和细粒度推理数据(Reason2Drive, DriveLM)[25] 挑战与未来展望 - 核心挑战包括鲁棒性与可靠性、实时性能、数据瓶颈、多模态对齐、多智能体社会复杂性和泛化与评估[27][28][29][30][31][32] - 未来方向包括基础驾驶大模型、神经-符号安全内核、车队级持续学习、标准化交通语言和跨模态社交智能[33][34][35][36][37]