世界模型 - 财报，业绩电话会，研报，新闻

世界模型

搜索文档

虎嗅APP· 2025-10-24 17:53

文章核心观点 - 文章通过对话北京人形机器人创新中心CTO唐剑，探讨了具身智能领域的发展现状、技术挑战及未来方向，核心聚焦于“世界模型”作为实现机器人智能涌现的关键技术路径 [5][6][15] - 世界模型被视为具身智能的“DeepSeek时刻”，其通过引入奖励机制和双模驱动架构，在有限算力下实现性能超越，并坚持开源以推动行业演进 [16][20][27] - 公司认为世界模型是提升机器人泛化能力、实现其在开放世界中可靠行动的必选项，而非可选技术路线 [21][24][31] 从AI控制到具身智能的起点 - 唐剑的研究方向从传统的基于数学建模的系统控制转向“经验驱动”的控制方式，后者通过历史数据和经验学习控制规律，适用于复杂系统 [9] - 经验驱动控制在自动驾驶领域的应用体现为“端到端控制”，如特斯拉FSD 12.0版本，将感知、规划、控制三模块合并，提升复杂场景下的泛化能力 [11] - 具身智能被视为比自动驾驶更高维度的挑战，因其自由度更高、环境更开放、任务类型更繁杂，对理解能力和泛化能力要求极高 [12] 世界模型与具身智能的“DeepSeek时刻” - 公司将世界模型类比为具身智能的“DeepSeek时刻”，基于三点相似性：在有限资源下超越SOTA性能、训练范式有突破（如奖励机制）、坚持开源 [16] - 公司世界模型采用“双模驱动”结构，世界模型与VLM相互促进，VLM为世界模型提供奖励反馈，确保生成内容符合物理规律和因果一致性 [16][17] - 公司世界模型同样引入GRPO机制进行微调，并计划开源新的VLM模型Pelican，形成更紧密的认知与物理交互闭环 [19][20] 世界模型的本质与行业分歧 - 世界模型的核心是帮助机器人理解世界，其不仅是“像人”，更要在认知上接近人，能理解、预判并在物理世界中行动 [21] - 行业对世界模型尚无统一定义，公司区分了面向娱乐的视频生成模型和面向机器人操作的模型，后者强调严格的物理一致性与时空一致性 [24][26][27] - 世界模型被视为具身智能的必选项，而非类似自动驾驶激光雷达的技术路线选择分歧，因为它是实现机器人开放世界行动可靠性的基础 [20][21] 世界模型的三种用途与进化方向 - 世界模型主要用途包括：与机器人大脑形成闭环互相促进、直接生成机器人训练所需的轨迹数据、作为机器人操作模型的一部分具备物理理解与控制能力 [25] - 公司当前世界模型基于视频生成的DiT架构，但未来可能采用全新架构，以更好地注入物理约束，如牛顿定律、能量守恒等 [27][28] - 世界模型的应用处于早期阶段，其核心目标是提高机器人的泛化能力，以支持从工业场景向更复杂的商业和家庭生活场景拓展 [28][29][31] 数据、算力与智能涌现的挑战 - 具身智能尚未出现类似ChatGPT的“突破时刻”，因其数据主要为轨迹数据，数据量级、采集难度和成本远高于语言模型，进化更慢 [14] - 目前无人能准确给出具身智能的“Scaling Law”，即智能能力随数据、算力、算法增长的规律，其是否存在及曲线形态均为未知 [20] - 公司使用“百卡级”算力训练出2B、7B、14B规模的世界模型，并在多项主要指标上超过SOTA模型，如英伟达的Cosmos Predict 2 [16]