视觉 - 语言 - 行为大模型（VLA）

搜索文档

36氪· 2025-09-12 10:45

行业技术路线争议 - 智驾行业对"世界模型"定义存在分歧多家公司提出不同技术路径并相互质疑 [1][3] - 小鹏汽车宣称其是中国唯一真正实现VLA量产的公司并计划9月通过OTA在全新P7车型上线VLA功能 [3][7] - 华为明确反对VLA路径提出WA方案直接通过视觉信息控车跳过语言转换环节 [3] - 元戎启行支持VLA路径称VLA模型下限已超过端到端上限强调思维链和长时序推理为核心能力 [5] 技术架构差异 - 理想汽车采用车端快慢双系统：快系统为端到端E2E 慢系统VLM部署参数为22亿参数云端基座模型作为仿真训练系统 [7] - 小鹏汽车研发720亿参数云端大模型"小鹏世界基座模型" 通过云端蒸馏方式部署到车端 [8] - 华为WEWA方案中云端WE作为"AI驾校" 车端WA采用一段式端到端架构总参数80亿但实际激活等效20亿参数算力消耗降低75% [15][17] - 蔚来世界模型NWM采用云端训练+车端推理双架构直接通过生成式模型生成轨迹规划跳过语言中间层 [12][13] 技术演进脉络 - VLA是在端到端＋VLM基础上的技术进化形态解决原有方案局限性但存在空间感知能力弱的问题 [5] - 世界模型概念由特斯拉最早提出通过在感知与决策间嵌入AI大模型构建虚拟环境进行自动驾驶验证 [9][11] - 行业从两段式端到端进化到一段式端到端 VLA和世界模型均处于试错阶段的新方法 [8] - 视频生成技术分为GAN、扩散模型、自回归模型和掩码四大类型其中扩散模型又分SVD和SD两种 [14] 企业战略布局 - 小鹏全新P7车型搭载三颗图灵芯片硬件配置大幅升级以支持VLA功能 [7] - 理想在英伟达2025春季GTC大会宣布从零训练基座模型支持MindVLA算法量产上车 [7] - 蔚来2024年NIO IN发布NWM 宣布智驾从"感知驱动"转入"认知驱动" 2025年5月底实现全量推送 [12][15] - 地平线认为所有新技术本质都是端到端最终评判标准是产品实际收益 [17]