文章核心观点 - 当前主流视频模型(如Sora)依赖被动观察数据,在理解物理因果关系方面存在不足 [2] - 真正具备物理直觉的世界模型必须基于与真实世界的大规模、富含因果关系的交互数据进行训练 [2] - 北京人形机器人创新中心推出的WoW模型,是一个基于200万条机器人交互轨迹训练、拥有140亿参数的全生成式世界模型,代表了该领域的重要突破 [2] - 通过SOPHIA框架引入视觉语言模型作为评判者,并对生成结果进行物理合理性评估与迭代优化,实现了从“思考”到“行动”的完整闭环 [2] - 在WoWBench基准测试中,WoW模型在物理定律遵循(80.16%)和指令理解(96.53%)方面表现突出,证明了其强大的物理一致性与因果推理能力 [3] 模型架构与技术突破 - 推出WoW模型,这是一个基于200万条真实世界机器人交互轨迹训练而成的、拥有140亿参数的全生成式世界模型 [2] - 模型对物理规律的理解呈现为概率性的可能结果分布,这种特性可能引发随机不稳定和物理幻觉 [2] - 提出SOPHIA框架,通过引入视觉语言模型作为评判者,对生成结果进行物理合理性评估,并借助语言指令进行迭代优化 [2] - 框架中协同训练一个逆向动力学模型,负责将优化后的视觉想象转化为可执行的机器人动作,形成完整闭环 [2] - 模型架构体现了“想象、行动、反思”的智能体设计思想 [7] 性能评估与基准测试 - 为系统评估模型的物理一致性与因果推理能力,构建了WoWBench基准测试 [3] - 在该基准上,WoW模型在人工评估与自动评估中均达到领先水平 [3] - 模型在物理定律遵循方面得分达到80.16% [3] - 模型在指令理解方面得分达到96.53% [3] - 测试结果证明了模型在物理因果关系、碰撞动力学和物体持久性等方面的强大能力 [3] 行业趋势与应用前景 - 研究以扎实证据表明,大规模真实世界交互是培养AI物理直觉不可或缺的基石 [3] - 世界模型在具身智能领域存在垂直应用前景 [7] - 模型具备预测未来、推演物理、还原因果的能力 [7] - 行业关注可落地的实践应用场景 [7] - 分享内容涵盖了国内外世界模型的发展趋势 [7]
北京人形机器人!WoW:200万条数据训练的全知世界模型
具身智能之心·2025-11-27 08:04