RoboScape

搜索文档
清华最新RoboScape:基于物理信息的具身世界模型~
自动驾驶之心· 2025-07-03 14:34
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[2] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在局限性[2] - 核心问题是如何在统一、高效的框架中整合物理知识[2] 核心方法 - 学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集[5] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[7] - 物理属性标注包括时间深度一致性和关键点运动轨迹两种基础物理先验[7] - 视频切片结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[7] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),增强3D几何一致性[9] - RGB分支和深度分支分别预测,通过跨分支交互使RGB生成保持精确几何结构[9] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[10] - 引入关键点引导的注意力机制,增强关键点轨迹区域的令牌学习[11] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[15] - 对比4种先进模型,包括具身世界模型IRASim、iVideoGPT,以及通用世界模型Genie、CogVideoX[15] 视频质量评估 - 外观保真度:LPIPS达0.1259,PSNR达21.8533[14] - 几何一致性:AbsRel为0.3600,δ1、δ2分别达0.6214、0.8307[14] - 动作可控性:∆PSNR达3.3435[14] 下游应用验证 - 机器人政策训练中,生成数据训练的Diffusion Policy性能接近真实数据训练结果[18] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[19] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[22] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[23]
RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 18:18
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[4] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、建模范围有限等问题[4] - 核心问题是如何在统一、高效的框架中整合物理知识[4] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[5] - 设计了四步处理流程构建含物理先验的多模态具身数据集[6] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[8] - 物理属性标注:生成深度图序列并进行关键点轨迹追踪,提取时间深度一致性和关键点运动轨迹[8] - 视频切片:结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[8] - 片段过滤:用FlowNet过滤运动模糊或模式混乱的片段,确保训练数据有效性[8] - 片段分类:按动作难度和场景分类,支持课程学习策略[8] 时间深度预测 - 增加时间深度预测分支,采用双分支协同自回归Transformer(DCT)[10] - 通过跨分支交互,将深度分支的中间特征与RGB特征融合,使RGB生成保持精确几何结构[10] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[11] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制[12] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[16] - 对比4种先进模型,RoboScape在外观保真度、几何一致性、动作可控性上均优于基线[15] - 消融实验显示,时间深度学习和关键点动态学习对性能至关重要[17] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy性能接近真实数据训练结果[19] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[20] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953[22] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[23] - 未来计划将生成式世界模型与真实机器人结合,验证在实际场景中的表现[24]
清华大学最新!RoboScape:基于物理信息的具身世界模型,动作可控性提升68.3%
具身智能之心· 2025-07-02 15:44
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续等问题[3] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在计算复杂、窄域局限或场景级生成困难等问题[3] - 核心问题是如何在统一、高效的框架中整合物理知识[3] 核心方法 - 聚焦机器人操作场景,学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集,包括物理属性标注、视频切片、片段过滤和片段分类[5] - 基于自回归Transformer框架实现帧级动作可控的机器人视频生成,通过时间深度预测和自适应关键点动态学习整合物理知识[5][7][8] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),通过RGB分支和深度分支分别预测,跨分支交互将深度分支的中间特征与RGB特征融合[7] - 损失函数为令牌的交叉熵损失,确保RGB生成保持精确几何结构[7] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性,基于运动幅度自适应选择 top-K 活跃关键点[8] - 通过损失强制采样关键点视觉令牌的时间一致性,并引入关键点引导的注意力机制增强关键点轨迹区域的令牌学习[9] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[13] - 对比4种先进模型,RoboScape在LPIPS(0.1259)、PSNR(21.8533)、AbsRel(0.3600)、δ1(0.6214)、δ2(0.8307)和∆PSNR(3.3435)上均优于基线[12][18] - 消融实验显示移除时间深度学习或关键点动态学习均会导致性能下降,深度学习保障几何一致性,关键点学习对视觉保真度和动作可控性至关重要[14] 下游应用验证 - 在Robomimic Lift任务中,仅用生成数据训练的Diffusion Policy(DP)性能接近真实数据训练结果,成功率随合成数据量增加而提升[16][17] - 在LIBERO任务中,π0模型用生成数据训练后性能超过真实数据训练的基线[17] - 作为政策评估器时,与真实模拟器的Pearson相关系数达0.953,显著高于基线[19] 结论与展望 - RoboScape通过多任务联合训练框架将物理知识高效整合到视频生成中,无需级联外部物理引擎[20] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[21]