视觉 - 语言 - 行为大模型(VLA)

搜索文档
特斯拉、华为与新势力决胜:世界模型大战
36氪· 2025-09-12 10:45
行业技术路线争议 - 智驾行业对"世界模型"定义存在分歧 多家公司提出不同技术路径并相互质疑 [1][3] - 小鹏汽车宣称其是中国唯一真正实现VLA量产的公司 并计划9月通过OTA在全新P7车型上线VLA功能 [3][7] - 华为明确反对VLA路径 提出WA方案直接通过视觉信息控车 跳过语言转换环节 [3] - 元戎启行支持VLA路径 称VLA模型下限已超过端到端上限 强调思维链和长时序推理为核心能力 [5] 技术架构差异 - 理想汽车采用车端快慢双系统:快系统为端到端E2E 慢系统VLM部署参数为22亿参数 云端基座模型作为仿真训练系统 [7] - 小鹏汽车研发720亿参数云端大模型"小鹏世界基座模型" 通过云端蒸馏方式部署到车端 [8] - 华为WEWA方案中云端WE作为"AI驾校" 车端WA采用一段式端到端架构 总参数80亿但实际激活等效20亿参数 算力消耗降低75% [15][17] - 蔚来世界模型NWM采用云端训练+车端推理双架构 直接通过生成式模型生成轨迹规划 跳过语言中间层 [12][13] 技术演进脉络 - VLA是在端到端+VLM基础上的技术进化形态 解决原有方案局限性但存在空间感知能力弱的问题 [5] - 世界模型概念由特斯拉最早提出 通过在感知与决策间嵌入AI大模型构建虚拟环境进行自动驾驶验证 [9][11] - 行业从两段式端到端进化到一段式端到端 VLA和世界模型均处于试错阶段的新方法 [8] - 视频生成技术分为GAN、扩散模型、自回归模型和掩码四大类型 其中扩散模型又分SVD和SD两种 [14] 企业战略布局 - 小鹏全新P7车型搭载三颗图灵芯片 硬件配置大幅升级以支持VLA功能 [7] - 理想在英伟达2025春季GTC大会宣布从零训练基座模型 支持MindVLA算法量产上车 [7] - 蔚来2024年NIO IN发布NWM 宣布智驾从"感知驱动"转入"认知驱动" 2025年5月底实现全量推送 [12][15] - 地平线认为所有新技术本质都是端到端 最终评判标准是产品实际收益 [17]