研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[4] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、建模范围有限等问题[4] - 核心问题是如何在统一、高效的框架中整合物理知识[4] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[5] - 设计了四步处理流程构建含物理先验的多模态具身数据集[6] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[8] - 物理属性标注:生成深度图序列并进行关键点轨迹追踪,提取时间深度一致性和关键点运动轨迹[8] - 视频切片:结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[8] - 片段过滤:用FlowNet过滤运动模糊或模式混乱的片段,确保训练数据有效性[8] - 片段分类:按动作难度和场景分类,支持课程学习策略[8] 时间深度预测 - 增加时间深度预测分支,采用双分支协同自回归Transformer(DCT)[10] - 通过跨分支交互,将深度分支的中间特征与RGB特征融合,使RGB生成保持精确几何结构[10] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[11] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制[12] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[16] - 对比4种先进模型,RoboScape在外观保真度、几何一致性、动作可控性上均优于基线[15] - 消融实验显示,时间深度学习和关键点动态学习对性能至关重要[17] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy性能接近真实数据训练结果[19] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[20] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953[22] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[23] - 未来计划将生成式世界模型与真实机器人结合,验证在实际场景中的表现[24]
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心·2025-07-02 18:18