Workflow
守擂“AI王冠”,小鹏拆掉的拐杖不止“语言”

文章核心观点 - 公司正将其智能驾驶技术路线从依赖语言作为中间转译环节的“标准VLA”架构,全面转向拆除语言(L)的“第二代VLA”架构,旨在通过“大数据+大算力+大模型”实现能力“涌现”,以突破当前自动驾驶系统的性能上限 [5][7][20][21][24][26] - 公司认为,电动化基础上的智能化才是电动汽车与传统汽车彻底区别开的核心,并将智能驾驶视为汽车行业竞争的下半场核心战场 [5] - 公司通过拆除过往的成功经验和路径依赖,包括暂停标准VLA研发、耗费20亿元进行技术探索,展现了其在物理AI领域作为“孤勇者”的决心,以应对来自华为、理想等竞争对手的激烈挑战 [7][20][36][38][40] 智能驾驶技术演进与领导团队 - 公司的智能驾驶研发经历了从“规则时代”到“规则+算法时代”,再到“VLA小模型时代”,并最终迈向“物理世界模型时代”和“端到端大模型”的技术世代演进 [19] - 智能驾驶业务的领导层实现了平稳交接与薪火相传:吴新宙(2019年3月至2023年8月在任)完成了从供应商方案到自研算法的过渡,并推出了高速NGP和有图城市NGP;李力耘(2023年8月至2025年10月在任)推动了无图城市NGP在超过200个城市的量产落地,并开始训练云端基座大模型;刘先明(2025年10月接任)则致力于验证规模法则在物理世界的可行性,并训练云端物理世界基座大模型 [16][17][19] - 前两任负责人吴新宙和李力耘在规则时代和算法时代的积累,为现任负责人刘先明搭建云端基座模型工厂(特别是其中的奖励函数组件)奠定了基础 [16][17] 第二代VLA技术架构与创新 - 第二代VLA的核心创新在于拆除了标准VLA中的语言(L)转译环节,使模型能够直接从视觉(V)映射到动作(A),从而减少了信息损耗和延迟,并允许在更大参数规模上进行数据训练 [24][26][28][30] - 新架构的训练采用自监督模式,类似于大语言模型的“猜词游戏”,通过预测下一个token的方式让模型直接从海量的“路景-驾驶动作”数据中自行领悟物理世界规律,摆脱了对人工标注和监督的依赖 [28][29][30] - 技术的执行层形成一个闭环:模型先提取环境的关键信息(Latent Tokens),进行世界模拟(World Simulation),然后结合强化学习(Reinforcement Learning)的经验奖励机制,最终输出具体的驾驶动作(Action)或分解为轨迹指令(Trajectory Tokens)来精准控制车辆 [31] 大数据、大算力与大模型的投入规模 - 公司用于训练的视频数据量呈现快速增长:从4月AI技术分享会公布的2000万Clips,到6月CVPR大会公布的5000万Clips(相当于3万部《流浪地球》),再到11月科技日公布的近1亿Clips(相当于驾驶35000年才能遇到的极限场景总和) [25] - 公司的云端智能算力集群规模持续扩张:从4月份已建立的万卡规模,到6月计划向两万卡水平迈进,再到11月科技日宣布已在阿里云上使用3万张卡,并展望明年可能达到5万至10万张卡的规模 [33] - 公司为第二代VLA针对其图灵AI芯片重新开发了编译器和软件栈,并对算子进行了优化,最终实现了推理效率12倍的提升 [35] - 为实现技术突破,公司耗费了超过20亿元进行研发投入,并在相当长一段时间内未看到明确希望 [7][38] 行业竞争格局与技术路线争议 - 公司在VLA大模型路线上正面临华为、理想等竞争对手的挑战:华为公开质疑VLA路线,并宣布其乾崑智驾系统搭载量已突破100万辆;理想汽车则在学术顶会上展示了“世界模型+训练闭环”的最新方案 [6][20] - 竞争对手对VLA路线的批评主要集中在两点:一是其对多模态数据量、算力等资源的需求极为庞大,数据采集和标注难度巨大;二是语言作为中间环节会导致信息丢失和决策延迟,华为智能汽车解决方案BU CEO靳玉志比喻其为“让语言学家去学开车” [20] - 公司意识到,在原有技术框架下通过不断解决极端案例(Corner case)来提升性能的方式已遇到瓶颈,收敛速度可能无法满足实现L4级自动驾驶的要求,因此必须进行根本性的架构创新 [20][21]