物理知识整合

搜索文档
清华最新RoboScape:基于物理信息的具身世界模型~
自动驾驶之心· 2025-07-03 14:34
研究背景与核心问题 - 具身智能领域的世界模型存在物理感知局限,尤其在涉及接触的机器人场景中,生成的视频常出现不真实的物体变形或运动不连续问题[2] - 现有模型过度依赖视觉令牌拟合,缺乏物理知识 awareness,此前整合物理知识的尝试存在局限性[2] - 核心问题是如何在统一、高效的框架中整合物理知识[2] 核心方法 - 学习具身世界模型作为动力学函数,基于过去的观测和机器人动作预测下一个视觉观测[4] - 设计了四步处理流程构建含物理先验的多模态具身数据集[5] RoboScape模型架构 - 基于自回归Transformer框架,通过两个物理感知辅助任务整合物理知识[7] - 物理属性标注包括时间深度一致性和关键点运动轨迹两种基础物理先验[7] - 视频切片结合相机边界检测和动作语义,将视频切分为属性归一化、运动一致的片段[7] 时间深度预测 - 采用双分支协同自回归Transformer(DCT),增强3D几何一致性[9] - RGB分支和深度分支分别预测,通过跨分支交互使RGB生成保持精确几何结构[9] 自适应关键点动态学习 - 通过自监督追踪接触驱动的关键点动态,隐式编码材料属性[10] - 引入关键点引导的注意力机制,增强关键点轨迹区域的令牌学习[11] 实验验证 - 采用AgiBotWorldBeta数据集的50,000个视频片段,涵盖147项任务和72项技能[15] - 对比4种先进模型,包括具身世界模型IRASim、iVideoGPT,以及通用世界模型Genie、CogVideoX[15] 视频质量评估 - 外观保真度:LPIPS达0.1259,PSNR达21.8533[14] - 几何一致性:AbsRel为0.3600,δ1、δ2分别达0.6214、0.8307[14] - 动作可控性:∆PSNR达3.3435[14] 下游应用验证 - 机器人政策训练中,生成数据训练的Diffusion Policy性能接近真实数据训练结果[18] - 在LIBERO任务中,生成数据训练的模型性能超过真实数据训练的基线[19] 结论与展望 - RoboScape通过多任务联合训练框架,将物理知识高效整合到视频生成中[22] - 未来计划将生成式世界模型与真实机器人结合,进一步验证在实际场景中的表现[23]