北京人形机器人创新中心提出具身世界模型WoW

文章核心观点 - 北京人形机器人创新中心开源了全新的具身世界模型WoW,该模型融合了视觉、动作、物理感知与推理,旨在让机器人理解物理世界并自主操作,有望成为世界模型领域的“DeepSeek”[1] - 模型相较于Sora2在模拟机器人操作的时空一致性和物理推理能力方面表现更为出色,实现了从生成到执行的跨越[1][2] - 公司通过开源模型权重和WoWBench基准,降低了研究门槛,加速了具身智能机器人的技术发展和产业落地[3][4] 创新的技术架构 - 提出全新的多模态大模型框架,将世界生成、动作预测、视觉理解和自我反思融合为一个统一系统,解决了传统架构在物理一致性、因果推理和泛化方面的局限[2] - 模型遵循SOPHIA自反范式,具备“视觉+物理”的泛化能力,能够跨机器人形态、任务和场景进行泛化,是通向具身智能的关键指标[2] - 模型实现了视频生成和机器人动作闭环,使AI能通过交互学习物理规律,并动手验证自己的理解[2] 模型性能与评估基准 - 公司提出了全球首个针对具身世界模型的综合基准WoWBench,从感知理解、预测推理、决策与规划、泛化执行四大核心维度评估模型能力[3] - 基准采用混合评测机制(专家模型+GPT或精调VLM+人类专家)进行评分,确保模型表现与人类认知保持一致[3] 应用前景与产业赋能 - 模型可实现数据迁移与扩增,从少量真实数据生成更多合成样本,完成“想象-生成-再标注-迁移”的自循环过程,让AI拥有“自我造数”能力[4] - 模型可以从视觉“想象”中反推真实可执行的动作指令,使机器人具备在复杂环境中自主理解与执行自然任务指令的能力[5] - 结合公司此前在“具身天工Ultra”和世界人形机器人运动会中展示的“最能跑”技术实力,本次开源进一步展现了公司在大脑方面的领先实力,加速具身智能落地应用[5]