何小鹏立“赌约”：明年8月底前达到特斯拉FSD效果！理想高管回应宇树王兴兴质疑，多家车企押注的VLA，靠谱吗？

文章核心观点 - 智能驾驶行业在技术路线上出现分化，以理想汽车和小鹏汽车为代表的企业选择VLA（视觉-语言-动作）模型方案，而以华为、蔚来等为代表的企业则更看重世界模型（World Model）方案，双方各执一词但技术未来有望深度融合 [6][7][9][12] 行业技术路线分歧 - 辅助驾驶行业技术底座经历了从“激光雷达+高精地图”到“BEV+Transformer”，再到“端到端”的范式迁移，2025年行业在发展方向上出现了VLA与世界模型的“分歧” [6] - VLA被视为端到端方案的“智能增强版”，其架构中V（视觉）负责感知，A（动作）负责控制指令，L（大语言模型）作为“中台”进行信息转译与决策推理 [7] - 世界模型指AI系统通过感知数据构建对物理世界的内部模拟，从而具备预测、推理和生成合理行为链的能力，在辅助驾驶中能实现理解世界并提前决策 [10] - 理想汽车与小鹏汽车是选择VLA方案的代表企业，而华为、蔚来、商汤等企业则在世界模型技术路线上进行布局 [6][9][11] VLA方案支持方观点 - 小鹏汽车董事长何小鹏宣布，小鹏VLA 2.0将在下个季度发布，并因是第一个版本而“压力很大” [1] - 何小鹏与公司自动驾驶团队立下“赌约”：若2026年8月30日前小鹏VLA系统在国内达到特斯拉FSD V14.2版本在硅谷的整体效果，他将在硅谷筹建特色中国风味食堂，反之自动驾驶负责人需在金门大桥裸跑 [3] - 理想汽车自动驾驶研发高级副总裁郎咸朋认为，VLA是自动驾驶最好的模型方案，模型关键要与整个具身智能系统适配，而数据起决定意义 [4] - 郎咸朋强调，空谈架构不如看疗效，理想汽车拥有数百万辆车构建的数据闭环，能在当前算力下将驾驶水平做到接近人类 [8] - 清华大学车辆与运载学院助理研究员颜宏伟表示，VLA是多模态大模型驱动的智能体架构，其核心突破在于引入思维链，实现了环境理解与决策推理的可解释性 [7] - 元戎启行CEO周光认为，VLA模型融合了语言模型，具备强大的思维链能力，能摆脱传统端到端模型的黑盒难题，且天然集成海量知识库，泛化能力更强 [7] 世界模型方案支持方观点 - 华为智能汽车解决方案BU CEO靳玉志明确表示不会走向VLA路径，认为该路径看似取巧，并非走向真正自动驾驶的路径 [9] - 华为更看重WA（世界行为模型），即World Action，中间省掉Language环节，直接通过Vision信息输入控车，其自研的WEWA架构包含云端的世界引擎（WE）与车端的世界行为模型（WA） [9] - 宇树科技创始人王兴兴对VLA模型持怀疑态度，认为它是一个相对比较傻瓜式的架构，在和真实世界交互时，其数据质量和能采集的数据不太够用 [7] 技术融合趋势 - 尽管企业各执一词，但VLA与世界模型两者并不矛盾，未来有望深度融合 [12] - 国海证券研报指出，VLA与世界模型在技术上并非同级或对立关系，产业玩家在实现端到端能力后，在能力优化侧重点上出现分化，双方技术融合趋势明显，均在向对方领域渗透 [12] - 理想汽车董事长李想提到，VLA可以拆解为预训练、后训练和强化学习三个层面，强化学习中最重要的一步就是在世界模型里闭环学习 [12] - 郎咸朋表示，世界模型的高算力需求决定了它更适合在云端做数据生成和极度逼真的仿真测试和强化训练 [12] - 小马智行CTO楼天城认为，大部分公司两种技术都用，世界模型和VLA模型不是一个维度的东西，而是交错的，不矛盾不冲突 [13] - 小鹏汽车有将两种技术融合的趋势，其发布的第二代VLA架构中，世界模型是作为二代VLA的一个记录器存在，在用VLA数据训练世界模型 [13][16] - 小鹏汽车自动驾驶产品高级总监袁婷婷表示，小鹏的二代VLA既是VLA模型，也是世界模型 [16] - 小米汽车主任科学家陈龙认为，VLA管“抽象思考”，世界模型管“物理感知”，两者结合才是通往更强通用具身智能 [16] - 国元证券认为，未来VLA与世界模型的深度融合，有望成为高阶智驾系统实现类人驾驶决策能力的关键拐点 [16] 技术演进与公司动态 - 小鹏汽车第一代VLA方案是V到L再到A，第二代VLA是V+L到A，把L转移到了输入端，何小鹏解释称第一代涉及两次语言转换会带来大量信息损耗，第二代以视觉为核心，把模型看到的世界直接转换成运动轨迹 [13][16] - 长安汽车智能驾驶高级总工程师预测，未来2至3年内辅助驾驶的技术架构还将迎来1至2轮迭代，到2028年有望收敛至相对稳定的状态 [17]