小鹏集团20260611

涉及的公司与行业 * 公司: 小鹏集团（XPeng）[1] * 行业: 自动驾驶、人工智能（AI）、物理AI（Physical AI）、具身智能、机器人[1][4][21] 核心观点与论据 1. 技术路线：融合VLA与世界模型，构建物理AI基座模型 * 核心观点: 小鹏不将视觉语言动作模型（VLA）与世界模型视为对立或分离的技术路线，而是致力于将两者结合，训练一个统一的“基座模型”（Foundation Model），以解决物理世界的AI问题[5][10][21][28]。 * 论据: * 历史沿革: 自2024年科技日起，公司就提出了VLA与世界模型并行、共享底座的未来技术框架[5]。 * 理论依据: 认为物理AI的核心是理解世界并据此行动（Understanding by prediction, prediction by scaling）[10]。单一的监督信号（人类动作或未来世界预测）都有局限性[9][11]。将人类动作的“高层语义”监督与预测未来世界的“密集”监督信号结合，能让模型既理解世界变化，又能做出合理动作[11][12]。 * 解决悖论: 指出如果存在一个能完美模拟世界反应的“世界模型”，那么自动驾驶问题理论上就已解决，这是一个悖论[30]。因此，更现实的做法是让基座模型在生成动作（Action）和模拟世界反应（Simulation）之间进行自我博弈和强化学习（self-play），共同逼近真实世界上限[19][31]。 2. 世界模型的技术图谱与三大核心能力 * 核心观点: 世界模型需具备三大核心能力：主动思考（Thinking）、可控生成（Controllability）和长时序推演（Long-term Rollout）[12][14]。 * 论据与具体工作: * 主动思考 (X-Mind): 通过扩散模型（DiT）等技术，尝试可视化模型在生成最终动作前的中间思考过程（COT），验证更多推理逻辑对模型能力的重要性[14][15]。 * 可控生成 (X-World): 一个开源的、高度可控的世界生成模型，控制维度包括：1）自车动作列表；2）编辑其他动态目标的动作；3）抑制静态场景的“幻觉”，确保空间和时间的高度一致性[16][17]。应用案例包括处理临停车绕行时模拟其他交通参与者的合理反应[16]。 * 长时序推演与整合 (X-Full-Set): 将思考（X-Mind）与可控生成（X-World）整合进一个模型，使其能同时输出合理动作和基于该动作的世界变化推演[18]。这为闭环强化学习提供了基础[19]。 * 部署加速 (X-Cache): 针对生成模型推理速度慢、资源消耗高的问题，开发了无需重新训练（training-free）的底层推理加速方案，提速比达到2.7倍，旨在实现大规模部署[20][21]。 3. 数据、算力与基础设施构成的竞争壁垒 * 核心观点: 小鹏坚持全栈自研的核心壁垒在于数据、算力、模型及底层基础设施（Infra） 三者形成的闭环，缺一不可，且第三方供应商无法提供[41][44][45]。 * 论据: * 数据优势: * 真实数据驱动: 强调解决L4问题的核心动力是来自真实世界采样的高质量数据，而非纯仿真或生成数据[33][34]。认为纯合成数据无法突破其生成器的能力上限[35]。 * 数据规模与泛化: 依托全球用户车辆上传的数据，为模型提供了足够的泛化能力，这是实现全球化的关键[24]。训练一个模型需从数据农场读取400到500个PB的数据，远超训练一个常规VLM（约4-5个PB）的数据量[42][43]。 * 算力与芯片: 需要大算力的量产车端芯片来承载更大的模型[41][44]。 * 基础设施（Infra）: 能高速处理海量数据（如单次训练读取数百PB）的AI基础设施是训练大规模模型的前提，目前具备此能力的企业极少[42][44]。 4. 技术落地与用户体验预期 * 核心观点: 世界模型框架的落地将提升模型的泛化能力，改善驾驶体验，并加速全球化和Robotaxi业务[36][37][39]。 * 论据: * 体验提升: 预计将提升在预防性驾驶、对即将发生事情的预判等方面的能力，从而在安全、合规、舒适和效率（CCES体系）上带来广泛提升[37][38][39]。 * 全球化应用: 世界模型能利用行车记录仪（dash camera）数据，生成补充不同国家/地区的驾驶数据，辅助训练，从而增强跨地域泛化能力[22][23][39]。 * 上车计划: 计划将融合了世界模型训练方式的模型部署上车。2024年8月的OTA版本将通过模型剪枝、蒸馏等技术，进一步提升车端模型的参数量和响应速度，但不会将生成视频的部分部署在车端[36][54][55]。 5. 业务协同：智驾、座舱与机器人的技术共通 * 核心观点: 自动驾驶、智能座舱与机器人业务在底层基础设施、模型架构上高度协同，均遵循类似的智能体（Agent）逻辑[47][48][57][58]。 * 论据: * 基础设施与模型复用: 机器人业务与智驾共享训练和部署的基础设施（Infra）[47]。智驾的VLA和视觉模型经过后训练可直接应用于机器人的内部导航和行走[47]。 * 架构统一: 公司成立通用智能中心（GIC），推动“舱驾一体”，将车视为机器人，打通从用户意图理解到任务执行的全链路[48]。这与机器人采用的VOT（任务规划）、VOM（视觉语言模型）、VOA（视觉语言动作）架构逻辑相通[57][58][60]。 其他重要信息 * 行业地位与活动: 小鹏在AI顶会CVPR上与特斯拉、英伟达等公司同台交流，首次完整披露了世界模型技术图谱[1]。 * 技术演进背景: 回顾了AI过去十年基于Scaling Law（规模定律）的发展路径，即通过扩大模型参数（如从ResNet到Transformer，参数量达万亿/T级别）和利用自监督学习扩大数据体量[6][7][8]。小鹏的VLA/世界模型发展也遵循此定律[8][11]。 * 面临的技术挑战: * 维数灾难: 从传感器输入的十亿级别（billion level）字节的信息量，到输出仅几十至几百个token，是一个巨大的降维过程，导致训练困难，易出现模态坍塌[9][10]。 * 数据不均衡: 在拓展欧洲等市场时，面临当地数据量偏小的问题[22][23]。 * 模型参数量变化: 在引入世界模型后，云端模型的参数量几乎翻倍（almost double）[54]。 * 未来业务展望: 提及2024年三季度将在广州运营Robotaxi，以及机器人业务的量产计划[36][51][65]。