文章核心观点 - 一篇由麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊研究团队联合发布的综述论文,系统性地梳理了面向自动驾驶的视觉-语言-行动模型的前沿进展,深入剖析了其架构演进、核心技术与未来挑战 [1] - VLA模型是当前最前沿的范式,旨在打造能够理解高级指令、推理复杂场景并自主决策的智能车辆,实现了感知、推理和行动的闭环 [7] - 综述将VLA4AD的发展划分为四个阶段,清晰地展示了语言在自动驾驶系统中角色和能力的演进:从一个被动的“解释者”,逐步成长为主动的“规划者”,最终演变为具备高级推理能力的“决策核心” [14] - 尽管VLA4AD取得了显著进展,但距离大规模实际部署仍面临鲁棒性、实时性、数据瓶颈等多重挑战,并提出了五大未来研究方向 [30][36] 自动驾驶范式演进 - 自动驾驶技术发展经历了从模块化到一体化的演进,总结为三大核心范式:端到端自动驾驶、用于自动驾驶的视觉语言模型、用于自动驾驶的视觉-语言-行动模型 [3] - 端到端自动驾驶:将传感器输入直接映射到驾驶动作,省去复杂中间模块,但“黑箱”特性导致可解释性差,难以处理需要高级推理的“长尾”场景 [7] - 用于自动驾驶的视觉语言模型:将语言的理解和推理能力引入自动驾驶,提升了系统的可解释性和对罕见事件的泛化能力,但语言输出与车辆的实际控制脱节,存在“行动鸿沟” [7] - 用于自动驾驶的视觉-语言-行动模型:在一个统一的策略中融合了视觉感知、语言理解和动作执行,不仅能遵循自然语言指令,还能用语言解释其决策原因,实现了感知、推理和行动的闭环 [7] VLA4AD核心架构 - 一个典型的VLA4AD模型架构由“输入-处理-输出”三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制 [6] - 多模态输入:依赖丰富的多模态数据,包括视觉数据(如多摄像头环视系统、鸟瞰图)、其他传感器数据(如激光雷达、雷达、IMU、GPS)以及形式日趋丰富的语言输入(如导航指令、环境查询、任务级指令、对话式推理) [9][11] - 核心架构模块:包含三大模块 [10] - 视觉编码器:负责将原始图像和传感器数据转换为潜在表征,通常使用如DINOv2或CLIP等大型自监督模型作为骨干网络,并常采用BEV投影技术或点云编码器来融合3D信息 [11] - 语言处理器:使用预训练的语言模型(如LLaMA2或GPT系列)来处理自然语言指令,通过指令微调或LoRA等轻量化微调策略适应自动驾驶领域知识 [11] - 动作解码器:负责生成最终的控制输出,实现方式主要有自回归令牌器、扩散模型头或分层控制器 [11][12] - 驾驶输出:输出形式反映了其抽象层次和操作目标,已从低阶控制演进为高阶规划,主要包括低阶动作(如方向盘转角、油门刹车)和轨迹规划 [13][17] VLA模型的四大发展阶段 - 阶段一:语言模型作为解释器:语言模型被用作一个被动的、用于描述的工具,以增强自动驾驶系统的可解释性,典型架构采用冻结的视觉模型和LLM解码器生成自然语言描述,但这些描述不直接参与车辆控制 [14][15] - 阶段二:模块化VLA模型:语言的角色演变为模块化架构中主动的规划组件,语言的输入和输出开始直接为规划决策提供信息,代表工作包括OpenDriveVLA、CoVLA-Agent、DriveMoE、SafeAuto、RAG-Driver等,但依赖于多阶段处理流程,引入了延迟和级联错误风险 [18][21] - 阶段三:统一的端到端VLA模型:构建完全统一的网络,将传感器输入直接映射到轨迹或控制信号,代表工作如DriveGPT-4,但存在延迟问题和效率低下,且描述场景不等于生成精确驾驶指令的“语义鸿沟”依然存在 [19][20] - 阶段四:推理增强的VLA模型:将VLM/LLM置于控制环路的核心,使模型朝着长时程推理、记忆和交互性的方向发展,代表工作包括EMMA、SimLingo/LMDrive/CarLLaVA、ADriver-I、DiffVLA、ORION、Impromptu VLA、AutoVLA等,预示着未来可对话的自动驾驶汽车的到来,但也面临如何高效索引记忆库、控制推理延迟等新挑战 [22][24] 数据集与基准 - 高质量、多样化且带有丰富标注的数据集是推动VLA4AD发展的核心燃料 [26] - BDD100K / BDD-X:提供了10万个来自美国的真实驾驶视频,其子集BDD-X(约7千个片段)为视频内容提供了与时间对齐的人类驾驶员的文本解释,为训练和评估模型的解释能力提供了宝贵数据 [27][29] - nuScenes:包含1000个在波士顿和新加坡采集的驾驶场景,每个场景时长20秒,提供了6个摄像头的环视图像、激光雷达和毫米波雷达数据,是VLA4AD模型进行综合评估的重要平台 [27][29] - Bench2Drive:基于CARLA模拟器的闭环驾驶基准测试,包含44种场景、220条驾驶路线和200万帧训练集,能精准测试特定驾驶技能 [27][29] - Reason2Drive:包含60万个视频-文本对,提供了思维链风格的问答标注,覆盖从“感知”到“行动”的完整推理过程,并引入了“一致性”指标 [27][29] - Impromptu VLA:专门为“犄角旮旯”场景打造的数据集,包含从8个公开数据集中筛选出的8万个驾驶片段,覆盖密集人群、救护车、恶劣天气等非常规交通状况 [27][29] - DriveAction:由用户贡献的真实世界基准,包含2600个驾驶场景和1.62万个带动作标签的视觉语言问答对,基于人类偏好的驾驶决策为VLA模型打分 [27][29] 挑战与未来展望 - 六大开放性挑战 [30][31] - 鲁棒性与可靠性:语言模型可能“幻觉”出不存在的危险或错误解析俚语指令;需在恶劣天气和噪声指令下保持稳定;对语言控制策略进行形式化验证仍是未解难题 [31][33] - 实时性能:在车载计算单元上以≥30Hz频率运行大型视觉Transformer和LLM极其困难;优化方向包括模型结构优化(如令牌削减、稀疏MoE路由)、事件驱动计算和模型压缩 [32][33] - 数据与标注瓶颈:同时包含图像、控制和语言的三模态监督数据非常稀少且收集成本高昂;现有数据集在非英语方言、交通俚语和专业术语方面覆盖有限 [33] - 多模态对齐:当前研究以摄像头为中心,对激光雷达、雷达、高精地图及车辆时序状态等信息融合处在初级阶段;缺乏能在时间上保持一致的异构多模态数据融合框架 [33] - 多智能体社会复杂性:扩展到密集城市交通会引发通信协议、信任和网络安全问题;缺乏受约束又灵活的“交通语言”来交换意图;身份验证、安全通信和理解人类手势等研究尚处早期 [35] - 领域自适应与评估:从模拟器到真实世界的有效迁移、跨地区泛化、持续学习等问题悬而未决;行业亟需一个统一的、由监管机构认可的“AI驾照考试”标准 [33][37] - 五大未来方向 [36] - 基础驾驶大模型:构建一个GPT风格的“驾驶骨干”基础模型,通过海量多传感器数据和文本化交通规则进行自监督训练,未来可通过提示工程或LoRA等技术用少量数据微调以适应特定任务 [37] - 神经-符号安全内核:将神经网络的灵活性与符号逻辑的可验证性相结合,让VLA模型输出结构化行动计划,由符号验证器来执行,确保决策既智能又合规 [37] - 车队级持续学习:部署的自动驾驶车队可将遇到新情况用简洁的语言片段描述并上传,云端平台聚合信息用于模型的课程化更新,实现知识的快速传播和共享 [37][38] - 标准化交通语言:建立一套由本体驱动的、标准化的信息集(如“我方让行”、“前方有障碍物”),作为高效车辆协同的基石,VLA模型可作为“翻译家”将感知数据翻译成规范化意图 [41] - 跨模态社交智能:未来的VLA系统需将手势、声音、交通标志等更广泛的“语言”信道纳入理解范围,并能通过车灯、显示屏或喇叭等方式产生明确的人类可读响应 [41]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解(麦吉尔&清华等)
自动驾驶之心·2025-07-02 21:54