研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续等问题[3] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、窄域局限或场景级生成困难等问题[3] - 核心问题是如何在统一、高效的框架中整合物理知识[3] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集,包括物理属性标注、视频切片、片段过滤和片段分类[5] - 基于自回归Transformer框架实现帧级动作可控的机器人视频生成,通过时间深度预测和自适应关键点动态学习整合物理知识[5][7][8] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),通过RGB分支和深度分支分别预测,跨分支交互将深度分支的中间特征与RGB特征融合[7] - 损失函数为令牌的交叉熵损失,确保RGB生成保持精确几何结构[7] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性,基于运动幅度自适应选择 top-K 活跃关键点[8] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制增强关键点轨迹区域的令牌学习[9] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[13] - 对比4种先进模型,RoboScape在LPIPS(0.1259)、PSNR(21.8533)、AbsRel(0.3600)、δ1(0.6214)、δ2(0.8307)和∆PSNR(3.3435)上均优于基线[12][18] - 消融实验显示移除时间深度学习或关键点动态学习均会导致性能下降,深度学习保障几何一致性,关键点学习对视觉保真度和动作可控性至关重要[14] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy(DP)性能接近真实数据训练结果,成功率随合成数据量增加而提升[16][17] - 在LIBERO任务中,π0模型用生成数据训练后性能超过真实数据训练的基线[17] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953,显著高于基线[19] 结论与展望 - RoboScape通过多任务联合训练框架将物理知识高效整合到视频生成中,无需级联外部物理引擎[20] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[21]
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心·2025-07-02 15:44