守擂“AI王冠” 小鹏拆掉的拐杖不止语言

公司战略与技术路线演变 - 公司创始人早在2019年就提出,电动化基础上的智能化是电动车与传统汽车的核心区别,并将智能驾驶视为“汽车下半场核心战场”[2] - 公司十年间坚持“All in 智驾”战略,技术从XPILOT 1.0迭代至VLA大模型时代,使智能化成为其最鲜明标签[2] - 面对技术瓶颈,公司内部同时推进两条技术路线,在第二代VLA模型出现“涌现”特性后,决定暂停传统路线研发,全面聚焦以大模型为核心的VLA体系[4] - 为打造第二代VLA,公司投入20亿元进行研发,在经历长期摸索后最终淬炼出新的自动驾驶系统[4] - 新的VLA范式将同步应用于公司的Robotaxi、人形机器人IRON以及飞行汽车上,旨在打造“物理AI”帝国[6] 行业竞争格局与挑战 - 公司在智能驾驶领域的领先地位正遭遇挑战,理想汽车在ICCV顶会上展示了“世界模型+训练闭环”的最新智驾方案,其开源数据集3DRealCar被AI顶会认可[3] - 华为公开挑战公司及理想等车企的VLA路线,宣布其ADS 4.0已推出,乾崑智驾系统搭载量已突破100万辆,覆盖11家车企、28款车型[3] - 行业内对VLA大模型的主要挑战集中在两点:一是对多模态数据量、算力等需求庞大,数据采集标注难度大;二是语言转化环节可能导致信息丢失和延迟[16] - 华为智能汽车解决方案BU CEO靳玉志质疑VLA路线,比喻为“让语言学家去学开车”;宇树科技创始人王兴兴则称VLA模型是“相对傻瓜式的架构”[17] 第二代VLA技术架构与突破 - 公司意识到传统解决corner case的方式难以实现L4级自动驾驶,因此决定创新智驾系统架构,兵分两路探索标准VLA和创新VLA[17][18] - 第二代VLA的核心突破在于“拆掉语言的拐杖”,即去除语言(L)这个中间转译环节,让模型直接从视觉(V)学习驾驶动作(A),以减少信息损耗并实现更大规模数据训练[21][22][25] - 第二代VLA的训练分为三个阶段:多模态输入层(看、听和感知)、核心编码层(车怎么“想”)、闭环执行层(车怎么“做”)[23][24][26] - 在核心编码层,公司参考大语言模型的“猜词游戏”自监督训练方式,让模型从海量“路景→驾驶动作”数据中自行领悟物理世界规律,无需人工标注[24][25] - 在闭环执行层,模型通过潜在表征tokens进行世界模拟和强化学习,最终通过轨迹表征tokens精准执行驾驶动作[26] 数据、算力与基础设施 - 公司实现技术“涌现”的关键在于大规模数据训练,其使用的视频数据量从4月的2000万Clips,增长到6月的5000万Clips,再到11月科技日宣布的近1亿Clips,相当于驾驶35000年遇到的极限场景总和[19][20] - 公司强调其训练数据均为各种Corner case和长尾数据,并认为其数据收集能力领先得益于出色的人工智能基础设施(Infra)[20] - 公司的云端算力集群规模迅速扩张,从4月的万卡规模,发展到6月正向两万卡水平前进,再到11月科技日宣布使用阿里云上3万张卡的算力集群,并计划明年扩张至5万甚至10万张卡[28] - 公司针对自研图灵AI芯片重新开发了编译器和软件栈,并对算子进行优化,最终实现了12倍的推理效率提升[30] 技术“涌现”的具体表现与未来展望 - 通过大规模数据训练,公司的自动驾驶系统展现出“涌现”特性,包括能识别“路人招手自动停车”、观察前车轮胎角度判断变道意图、以及推出“小路NGP”功能等[20] - 公司认为“涌现”是量变引发质变的结果,当模型规模突破临界阈值后,会展现出在较小模型中完全不存在的复杂能力,其理念师承大语言模型ChatGPT[19] - 公司下一代VLA的目标是实现完全端到端的自动驾驶,其核心创新在于去除了语言中间层,从而能够处理更大规模参数量和数据训练量[21]