Workflow
具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
机器之心·2025-06-26 12:35

行业背景与挑战 - 人工智能正从感知智能向决策智能演进,世界模型成为机器人领域重要研究方向,旨在让智能体对环境建模并预测未来状态[1] - 具身算法高度依赖大规模真实机器人演示数据,但数据采集成本高昂、耗时费力,严重限制了可扩展性和泛化能力[1] - 仿真平台虽能低成本生成数据,但存在仿真与现实世界的视觉和动力学差异,导致训练策略难以直接迁移到真实机器人[1] - 高效获取、生成和利用高质量的具身数据已成为当前机器人学习领域的核心挑战[1] RoboTransfer技术方案 - RoboTransfer是一种基于扩散模型的视频生成框架,用于扩充机器人策略模型的训练数据[2] - 该框架融合多视角几何信息,并对场景中的关键组成成分实现显式控制,如背景和物体属性[4] - 通过引入跨视角特征交互机制及全局深度图与法向图作为条件输入,确保生成视频在多个视角下的几何一致性[4] - 框架支持细粒度编辑控制,例如更换背景、替换目标物体,从而灵活生成多样化、结构合理的视觉数据[4] - 采用深度图和表面法向图等强结构约束表示方式来引导生成视频中物体的三维空间结构,确保几何一致性[6] - 在外观控制方面,利用参考背景图像和目标物体的参考图像作为输入条件,以维持物体外观的细节还原能力[6] 技术应用与效果 - RoboTransfer可通过real-to-real和sim-to-real两种方式实现数据增广,并训练下游策略模型提升性能[8] - 在real-to-real数据增广中,基于真机采集的真实视频数据提取结构化信息作为控制条件,可灵活实现背景桌布的替换[9] - 在sim-to-real数据增广中,利用仿真数据中的结构化信息及真实场景的物体和背景作为控制条件,将仿真数据转化为逼真实数据,降低sim-to-real差距[11] - 使用RoboTransfer合成数据训练的机器人视觉策略模型在标准测试任务中表现显著提升:在更换前景物体的场景下成功率相对提升33.3%,在同时更换前景背景的挑战性场景下提升251%[4][15] - 得益于合成数据的多样性,下游策略模型在新场景下取得251%的显著提升,大幅提升策略模型的泛化性[2]