视觉 - 语言 - 行动(VLA)
搜索文档
本田讴歌预告新一代RDX:首款双电机混合动力系统讴歌车型;理想调整基座模型业务:詹锟接手,VLA 研发整合丨汽车交通日报
创业邦· 2026-01-15 18:15
汽车行业召回与供应链动态 - 因零部件缺陷 现代汽车 保时捷韩国分公司及其他两家汽车制造商将在韩国自愿召回总计344,073辆汽车 涉及74款车型 [2] 自动驾驶与人工智能技术整合 - 理想汽车调整自动驾驶业务架构 自动驾驶高级算法专家詹锟接手基座模型业务 整体负责VLA基座模型研发 相关团队将整合以支持自动驾驶 智能座舱及未来机器人业务 [2] - 詹锟的汇报关系由向自动驾驶研发高级副总裁郎咸朋汇报 改为向理想CTO 系统与计算群组负责人谢炎汇报 但其仍继续负责智能驾驶VLA模型研发及工程化平台化工作 [2] - 现任基座模型负责人陈伟或将离职加入创业行列 [2] 产业链战略合作 - 宁德时代与中国长安汽车签署为期五年的全面深化战略伙伴关系备忘录 双方将在技术应用 市场拓展 模式创新 海外布局及品牌传播等方向开展合作 [2] 新产品与技术路线 - 本田讴歌宣布新一代讴歌RDX紧凑型SUV 这将是首款配备双电机混合动力系统的讴歌车型 目前处于开发中 计划未来数年内正式上市 [2] - 为配合新版RDX上市 2026款RDX计划在2024年晚些时候停产 [2]
全球首个自动驾驶VLA综述重磅发布:VLA自驾模型全面拆解(麦吉尔&清华等)
自动驾驶之心· 2025-07-02 21:54
文章核心观点 - 一篇由麦吉尔大学、清华大学、小米公司和威斯康辛麦迪逊研究团队联合发布的综述论文,系统性地梳理了面向自动驾驶的视觉-语言-行动模型的前沿进展,深入剖析了其架构演进、核心技术与未来挑战 [1] - VLA模型是当前最前沿的范式,旨在打造能够理解高级指令、推理复杂场景并自主决策的智能车辆,实现了感知、推理和行动的闭环 [7] - 综述将VLA4AD的发展划分为四个阶段,清晰地展示了语言在自动驾驶系统中角色和能力的演进:从一个被动的“解释者”,逐步成长为主动的“规划者”,最终演变为具备高级推理能力的“决策核心” [14] - 尽管VLA4AD取得了显著进展,但距离大规模实际部署仍面临鲁棒性、实时性、数据瓶颈等多重挑战,并提出了五大未来研究方向 [30][36] 自动驾驶范式演进 - 自动驾驶技术发展经历了从模块化到一体化的演进,总结为三大核心范式:端到端自动驾驶、用于自动驾驶的视觉语言模型、用于自动驾驶的视觉-语言-行动模型 [3] - **端到端自动驾驶**:将传感器输入直接映射到驾驶动作,省去复杂中间模块,但“黑箱”特性导致可解释性差,难以处理需要高级推理的“长尾”场景 [7] - **用于自动驾驶的视觉语言模型**:将语言的理解和推理能力引入自动驾驶,提升了系统的可解释性和对罕见事件的泛化能力,但语言输出与车辆的实际控制脱节,存在“行动鸿沟” [7] - **用于自动驾驶的视觉-语言-行动模型**:在一个统一的策略中融合了视觉感知、语言理解和动作执行,不仅能遵循自然语言指令,还能用语言解释其决策原因,实现了感知、推理和行动的闭环 [7] VLA4AD核心架构 - 一个典型的VLA4AD模型架构由“输入-处理-输出”三部分构成,旨在无缝整合环境感知、高级指令理解与最终的车辆控制 [6] - **多模态输入**:依赖丰富的多模态数据,包括视觉数据(如多摄像头环视系统、鸟瞰图)、其他传感器数据(如激光雷达、雷达、IMU、GPS)以及形式日趋丰富的语言输入(如导航指令、环境查询、任务级指令、对话式推理) [9][11] - **核心架构模块**:包含三大模块 [10] - **视觉编码器**:负责将原始图像和传感器数据转换为潜在表征,通常使用如DINOv2或CLIP等大型自监督模型作为骨干网络,并常采用BEV投影技术或点云编码器来融合3D信息 [11] - **语言处理器**:使用预训练的语言模型(如LLaMA2或GPT系列)来处理自然语言指令,通过指令微调或LoRA等轻量化微调策略适应自动驾驶领域知识 [11] - **动作解码器**:负责生成最终的控制输出,实现方式主要有自回归令牌器、扩散模型头或分层控制器 [11][12] - **驾驶输出**:输出形式反映了其抽象层次和操作目标,已从低阶控制演进为高阶规划,主要包括低阶动作(如方向盘转角、油门刹车)和轨迹规划 [13][17] VLA模型的四大发展阶段 - **阶段一:语言模型作为解释器**:语言模型被用作一个被动的、用于描述的工具,以增强自动驾驶系统的可解释性,典型架构采用冻结的视觉模型和LLM解码器生成自然语言描述,但这些描述不直接参与车辆控制 [14][15] - **阶段二:模块化VLA模型**:语言的角色演变为模块化架构中主动的规划组件,语言的输入和输出开始直接为规划决策提供信息,代表工作包括OpenDriveVLA、CoVLA-Agent、DriveMoE、SafeAuto、RAG-Driver等,但依赖于多阶段处理流程,引入了延迟和级联错误风险 [18][21] - **阶段三:统一的端到端VLA模型**:构建完全统一的网络,将传感器输入直接映射到轨迹或控制信号,代表工作如DriveGPT-4,但存在延迟问题和效率低下,且描述场景不等于生成精确驾驶指令的“语义鸿沟”依然存在 [19][20] - **阶段四:推理增强的VLA模型**:将VLM/LLM置于控制环路的核心,使模型朝着长时程推理、记忆和交互性的方向发展,代表工作包括EMMA、SimLingo/LMDrive/CarLLaVA、ADriver-I、DiffVLA、ORION、Impromptu VLA、AutoVLA等,预示着未来可对话的自动驾驶汽车的到来,但也面临如何高效索引记忆库、控制推理延迟等新挑战 [22][24] 数据集与基准 - 高质量、多样化且带有丰富标注的数据集是推动VLA4AD发展的核心燃料 [26] - **BDD100K / BDD-X**:提供了10万个来自美国的真实驾驶视频,其子集BDD-X(约7千个片段)为视频内容提供了与时间对齐的人类驾驶员的文本解释,为训练和评估模型的解释能力提供了宝贵数据 [27][29] - **nuScenes**:包含1000个在波士顿和新加坡采集的驾驶场景,每个场景时长20秒,提供了6个摄像头的环视图像、激光雷达和毫米波雷达数据,是VLA4AD模型进行综合评估的重要平台 [27][29] - **Bench2Drive**:基于CARLA模拟器的闭环驾驶基准测试,包含44种场景、220条驾驶路线和200万帧训练集,能精准测试特定驾驶技能 [27][29] - **Reason2Drive**:包含60万个视频-文本对,提供了思维链风格的问答标注,覆盖从“感知”到“行动”的完整推理过程,并引入了“一致性”指标 [27][29] - **Impromptu VLA**:专门为“犄角旮旯”场景打造的数据集,包含从8个公开数据集中筛选出的8万个驾驶片段,覆盖密集人群、救护车、恶劣天气等非常规交通状况 [27][29] - **DriveAction**:由用户贡献的真实世界基准,包含2600个驾驶场景和1.62万个带动作标签的视觉语言问答对,基于人类偏好的驾驶决策为VLA模型打分 [27][29] 挑战与未来展望 - **六大开放性挑战** [30][31] - **鲁棒性与可靠性**:语言模型可能“幻觉”出不存在的危险或错误解析俚语指令;需在恶劣天气和噪声指令下保持稳定;对语言控制策略进行形式化验证仍是未解难题 [31][33] - **实时性能**:在车载计算单元上以≥30Hz频率运行大型视觉Transformer和LLM极其困难;优化方向包括模型结构优化(如令牌削减、稀疏MoE路由)、事件驱动计算和模型压缩 [32][33] - **数据与标注瓶颈**:同时包含图像、控制和语言的三模态监督数据非常稀少且收集成本高昂;现有数据集在非英语方言、交通俚语和专业术语方面覆盖有限 [33] - **多模态对齐**:当前研究以摄像头为中心,对激光雷达、雷达、高精地图及车辆时序状态等信息融合处在初级阶段;缺乏能在时间上保持一致的异构多模态数据融合框架 [33] - **多智能体社会复杂性**:扩展到密集城市交通会引发通信协议、信任和网络安全问题;缺乏受约束又灵活的“交通语言”来交换意图;身份验证、安全通信和理解人类手势等研究尚处早期 [35] - **领域自适应与评估**:从模拟器到真实世界的有效迁移、跨地区泛化、持续学习等问题悬而未决;行业亟需一个统一的、由监管机构认可的“AI驾照考试”标准 [33][37] - **五大未来方向** [36] - **基础驾驶大模型**:构建一个GPT风格的“驾驶骨干”基础模型,通过海量多传感器数据和文本化交通规则进行自监督训练,未来可通过提示工程或LoRA等技术用少量数据微调以适应特定任务 [37] - **神经-符号安全内核**:将神经网络的灵活性与符号逻辑的可验证性相结合,让VLA模型输出结构化行动计划,由符号验证器来执行,确保决策既智能又合规 [37] - **车队级持续学习**:部署的自动驾驶车队可将遇到新情况用简洁的语言片段描述并上传,云端平台聚合信息用于模型的课程化更新,实现知识的快速传播和共享 [37][38] - **标准化交通语言**:建立一套由本体驱动的、标准化的信息集(如“我方让行”、“前方有障碍物”),作为高效车辆协同的基石,VLA模型可作为“翻译家”将感知数据翻译成规范化意图 [41] - **跨模态社交智能**:未来的VLA系统需将手势、声音、交通标志等更广泛的“语言”信道纳入理解范围,并能通过车灯、显示屏或喇叭等方式产生明确的人类可读响应 [41]