Workflow
多模态世界模型体系
icon
搜索文档
具身世界模型开源 让机器人学会“预演”未来
央视网· 2025-10-25 22:59
技术突破与核心能力 - 开源WoW具身世界模型 使机器人具备从想象预演到动作执行的知行合一能力 [2] - 世界模型本质是AI模拟人类思考和决策时进行想象和预测的模型 能生成符合物理规律的未来预测视频 [4] - 模型可适配人形 类人形 机械臂等不同本体机器人 覆盖家居 商超 工业 物流等多种场景 [6] - 模型能高精度模拟水洒在电脑上等极端情况 为真机训练难以实现的数据采集提供重要补充 [6] - 研发团队创新构建全球首个具备自主进化能力的多模态世界模型体系 让世界模型自己教自己 [7] 技术实现与数据基础 - 机器人行动前可先想象出预演画面 用以指导其与真实世界的交互 [2] - 利用手机在家居场景下拍摄的图片 世界模型可生成未来状态并转换成机器人具体执行的操作 [6] - 项目采集了百万级别真实交互的具身智能数据 使模型能在真实且泛化的场景下操作 [6] - 首创具身世界模型与视觉语言模型双模型协同联动的多模态世界模型体系 [7] - 具身世界模型负责物理推演与动态预测 视觉语言模型负责多模态理解 长程任务规划与逻辑自校正 [7] 自主进化与学习机制 - 双模型共同形成想象-验证-修正-再想象的具身智能学习回路 [7] - 机器人通过真实环境的试错学习形成因果理解 自主进化出类似人类心智的物理直觉 [7] - 视觉语言模型与世界模型像打乒乓球一样来回传递信息 使机器人能力越来越好 [9] - 从想象推理到真实世界中的执行动作形成反馈闭环 使世界模型能不断自我进化并在真实场景中自我提升 [9] 行业合作与生态建设 - WoW具身世界模型由北京人形机器人创新中心联合北京大学 香港科技大学团队研发 [6] - 模型向全球研究者与开发者开放 [6] - 北京人形机器人创新中心同步发布全球首个针对具身世界模型的综合基准 构建四大核心能力的多维评测体系 [9]