小鹏集团20260611
小鹏汽车小鹏汽车(US:XPEV)2026-06-11 23:01

涉及的公司与行业 * 公司: 小鹏集团(XPeng)[1] * 行业: 自动驾驶、人工智能(AI)、物理AI(Physical AI)、具身智能、机器人[1][4][21] 核心观点与论据 1. 技术路线:融合VLA与世界模型,构建物理AI基座模型 * 核心观点: 小鹏不将视觉语言动作模型(VLA)与世界模型视为对立或分离的技术路线,而是致力于将两者结合,训练一个统一的“基座模型”(Foundation Model),以解决物理世界的AI问题[5][10][21][28]。 * 论据: * 历史沿革: 自2024年科技日起,公司就提出了VLA与世界模型并行、共享底座的未来技术框架[5]。 * 理论依据: 认为物理AI的核心是理解世界并据此行动(Understanding by prediction, prediction by scaling)[10]。单一的监督信号(人类动作或未来世界预测)都有局限性[9][11]。将人类动作的“高层语义”监督与预测未来世界的“密集”监督信号结合,能让模型既理解世界变化,又能做出合理动作[11][12]。 * 解决悖论: 指出如果存在一个能完美模拟世界反应的“世界模型”,那么自动驾驶问题理论上就已解决,这是一个悖论[30]。因此,更现实的做法是让基座模型在生成动作(Action)和模拟世界反应(Simulation)之间进行自我博弈和强化学习(self-play),共同逼近真实世界上限[19][31]。 2. 世界模型的技术图谱与三大核心能力 * 核心观点: 世界模型需具备三大核心能力:主动思考(Thinking)、可控生成(Controllability)和长时序推演(Long-term Rollout)[12][14]。 * 论据与具体工作: * 主动思考 (X-Mind): 通过扩散模型(DiT)等技术,尝试可视化模型在生成最终动作前的中间思考过程(COT),验证更多推理逻辑对模型能力的重要性[14][15]。 * 可控生成 (X-World): 一个开源的、高度可控的世界生成模型,控制维度包括:1)自车动作列表;2)编辑其他动态目标的动作;3)抑制静态场景的“幻觉”,确保空间和时间的高度一致性[16][17]。应用案例包括处理临停车绕行时模拟其他交通参与者的合理反应[16]。 * 长时序推演与整合 (X-Full-Set): 将思考(X-Mind)与可控生成(X-World)整合进一个模型,使其能同时输出合理动作和基于该动作的世界变化推演[18]。这为闭环强化学习提供了基础[19]。 * 部署加速 (X-Cache): 针对生成模型推理速度慢、资源消耗高的问题,开发了无需重新训练(training-free)的底层推理加速方案,提速比达到2.7倍,旨在实现大规模部署[20][21]。 3. 数据、算力与基础设施构成的竞争壁垒 * 核心观点: 小鹏坚持全栈自研的核心壁垒在于数据、算力、模型及底层基础设施(Infra) 三者形成的闭环,缺一不可,且第三方供应商无法提供[41][44][45]。 * 论据: * 数据优势: * 真实数据驱动: 强调解决L4问题的核心动力是来自真实世界采样的高质量数据,而非纯仿真或生成数据[33][34]。认为纯合成数据无法突破其生成器的能力上限[35]。 * 数据规模与泛化: 依托全球用户车辆上传的数据,为模型提供了足够的泛化能力,这是实现全球化的关键[24]。训练一个模型需从数据农场读取400到500个PB的数据,远超训练一个常规VLM(约4-5个PB)的数据量[42][43]。 * 算力与芯片: 需要大算力的量产车端芯片来承载更大的模型[41][44]。 * 基础设施(Infra): 能高速处理海量数据(如单次训练读取数百PB)的AI基础设施是训练大规模模型的前提,目前具备此能力的企业极少[42][44]。 4. 技术落地与用户体验预期 * 核心观点: 世界模型框架的落地将提升模型的泛化能力,改善驾驶体验,并加速全球化和Robotaxi业务[36][37][39]。 * 论据: * 体验提升: 预计将提升在预防性驾驶、对即将发生事情的预判等方面的能力,从而在安全、合规、舒适和效率(CCES体系)上带来广泛提升[37][38][39]。 * 全球化应用: 世界模型能利用行车记录仪(dash camera)数据,生成补充不同国家/地区的驾驶数据,辅助训练,从而增强跨地域泛化能力[22][23][39]。 * 上车计划: 计划将融合了世界模型训练方式的模型部署上车。2024年8月的OTA版本将通过模型剪枝、蒸馏等技术,进一步提升车端模型的参数量和响应速度,但不会将生成视频的部分部署在车端[36][54][55]。 5. 业务协同:智驾、座舱与机器人的技术共通 * 核心观点: 自动驾驶、智能座舱与机器人业务在底层基础设施、模型架构上高度协同,均遵循类似的智能体(Agent)逻辑[47][48][57][58]。 * 论据: * 基础设施与模型复用: 机器人业务与智驾共享训练和部署的基础设施(Infra)[47]。智驾的VLA和视觉模型经过后训练可直接应用于机器人的内部导航和行走[47]。 * 架构统一: 公司成立通用智能中心(GIC),推动“舱驾一体”,将车视为机器人,打通从用户意图理解到任务执行的全链路[48]。这与机器人采用的VOT(任务规划)、VOM(视觉语言模型)、VOA(视觉语言动作)架构逻辑相通[57][58][60]。 其他重要信息 * 行业地位与活动: 小鹏在AI顶会CVPR上与特斯拉、英伟达等公司同台交流,首次完整披露了世界模型技术图谱[1]。 * 技术演进背景: 回顾了AI过去十年基于Scaling Law(规模定律)的发展路径,即通过扩大模型参数(如从ResNet到Transformer,参数量达万亿/T级别)和利用自监督学习扩大数据体量[6][7][8]。小鹏的VLA/世界模型发展也遵循此定律[8][11]。 * 面临的技术挑战: * 维数灾难: 从传感器输入的十亿级别(billion level)字节的信息量,到输出仅几十至几百个token,是一个巨大的降维过程,导致训练困难,易出现模态坍塌[9][10]。 * 数据不均衡: 在拓展欧洲等市场时,面临当地数据量偏小的问题[22][23]。 * 模型参数量变化: 在引入世界模型后,云端模型的参数量几乎翻倍(almost double)[54]。 * 未来业务展望: 提及2024年三季度将在广州运营Robotaxi,以及机器人业务的量产计划[36][51][65]。

小鹏集团20260611 - Reportify