Workflow
XPILOT
icon
搜索文档
守擂“AI王冠”,小鹏拆掉的拐杖不止“语言”
21世纪经济报道· 2025-11-12 16:17
文章核心观点 - 公司正将其智能驾驶技术路线从依赖语言作为中间转译环节的“标准VLA”架构,全面转向拆除语言(L)的“第二代VLA”架构,旨在通过“大数据+大算力+大模型”实现能力“涌现”,以突破当前自动驾驶系统的性能上限 [5][7][20][21][24][26] - 公司认为,电动化基础上的智能化才是电动汽车与传统汽车彻底区别开的核心,并将智能驾驶视为汽车行业竞争的下半场核心战场 [5] - 公司通过拆除过往的成功经验和路径依赖,包括暂停标准VLA研发、耗费20亿元进行技术探索,展现了其在物理AI领域作为“孤勇者”的决心,以应对来自华为、理想等竞争对手的激烈挑战 [7][20][36][38][40] 智能驾驶技术演进与领导团队 - 公司的智能驾驶研发经历了从“规则时代”到“规则+算法时代”,再到“VLA小模型时代”,并最终迈向“物理世界模型时代”和“端到端大模型”的技术世代演进 [19] - 智能驾驶业务的领导层实现了平稳交接与薪火相传:吴新宙(2019年3月至2023年8月在任)完成了从供应商方案到自研算法的过渡,并推出了高速NGP和有图城市NGP;李力耘(2023年8月至2025年10月在任)推动了无图城市NGP在超过200个城市的量产落地,并开始训练云端基座大模型;刘先明(2025年10月接任)则致力于验证规模法则在物理世界的可行性,并训练云端物理世界基座大模型 [16][17][19] - 前两任负责人吴新宙和李力耘在规则时代和算法时代的积累,为现任负责人刘先明搭建云端基座模型工厂(特别是其中的奖励函数组件)奠定了基础 [16][17] 第二代VLA技术架构与创新 - 第二代VLA的核心创新在于拆除了标准VLA中的语言(L)转译环节,使模型能够直接从视觉(V)映射到动作(A),从而减少了信息损耗和延迟,并允许在更大参数规模上进行数据训练 [24][26][28][30] - 新架构的训练采用自监督模式,类似于大语言模型的“猜词游戏”,通过预测下一个token的方式让模型直接从海量的“路景-驾驶动作”数据中自行领悟物理世界规律,摆脱了对人工标注和监督的依赖 [28][29][30] - 技术的执行层形成一个闭环:模型先提取环境的关键信息(Latent Tokens),进行世界模拟(World Simulation),然后结合强化学习(Reinforcement Learning)的经验奖励机制,最终输出具体的驾驶动作(Action)或分解为轨迹指令(Trajectory Tokens)来精准控制车辆 [31] 大数据、大算力与大模型的投入规模 - 公司用于训练的视频数据量呈现快速增长:从4月AI技术分享会公布的2000万Clips,到6月CVPR大会公布的5000万Clips(相当于3万部《流浪地球》),再到11月科技日公布的近1亿Clips(相当于驾驶35000年才能遇到的极限场景总和) [25] - 公司的云端智能算力集群规模持续扩张:从4月份已建立的万卡规模,到6月计划向两万卡水平迈进,再到11月科技日宣布已在阿里云上使用3万张卡,并展望明年可能达到5万至10万张卡的规模 [33] - 公司为第二代VLA针对其图灵AI芯片重新开发了编译器和软件栈,并对算子进行了优化,最终实现了推理效率12倍的提升 [35] - 为实现技术突破,公司耗费了超过20亿元进行研发投入,并在相当长一段时间内未看到明确希望 [7][38] 行业竞争格局与技术路线争议 - 公司在VLA大模型路线上正面临华为、理想等竞争对手的挑战:华为公开质疑VLA路线,并宣布其乾崑智驾系统搭载量已突破100万辆;理想汽车则在学术顶会上展示了“世界模型+训练闭环”的最新方案 [6][20] - 竞争对手对VLA路线的批评主要集中在两点:一是其对多模态数据量、算力等资源的需求极为庞大,数据采集和标注难度巨大;二是语言作为中间环节会导致信息丢失和决策延迟,华为智能汽车解决方案BU CEO靳玉志比喻其为“让语言学家去学开车” [20] - 公司意识到,在原有技术框架下通过不断解决极端案例(Corner case)来提升性能的方式已遇到瓶颈,收敛速度可能无法满足实现L4级自动驾驶的要求,因此必须进行根本性的架构创新 [20][21]
车、机、芯,三条最火科技故事线亮相ICTS信息展,神秘盲盒等你来!
半导体芯闻· 2025-07-31 18:23
人工智能产业 - 中国人工智能市场占亚太地区总支出超五成 预计2028年总投资规模突破1000亿美元 五年复合增长率35.2% [7] - 产业链核心围绕算力、算法、数据三大要素 涵盖芯片制造、设备、封装、EDA/IP等半导体环节 [8] - 芯片为产业链中枢 下游应用包括智慧城市、语音识别、数字孪生等终端场景 [9] 具身智能领域 - 具身智能定义为有物理载体的智能体 通过感知和自主学习积累技能 应用覆盖工业制造、医疗康复等多元场景 [13] - 产业链分为上游技术研发(AI算法、芯片)、中游系统集成(机器人整机制造)、下游场景落地(工业高危环境作业等) [14] - 关键技术包括减速器、伺服系统、传感器等零部件 代表企业涵盖科技巨头与特种机器人制造商 [14] 智能驾驶生态 - 智能驾驶融合AI、传感器等技术 实现从L2辅助驾驶到L4完全自动驾驶的进阶 [17] - 上游感知层激光雷达成本下探至10-15万元车型 代表企业包括速腾聚创、舜宇光学等 [18] - 中游解决方案商分L2-L3渐进式(华为ADS)与L4激进式(百度Apollo)两条技术路径 [18] 2025工博会亮点 - 集成电路展区展示半导体自主化突破 设置算力秘密、AI叛逆期、智驾拆解三条故事线 [24] - 工业智能体展区聚焦国产替代 覆盖研发设计、生产控制等工业软件数智化跃迁 [24] - 现场将呈现芯片到终端全链条 包括人形机器人互动、智驾系统拆解等前沿应用 [20]