让机器人在“想象”中学习世界的模型来了,PI联创课题组&清华陈建宇团队联合出品
这两天,Physical Intelligence(PI)联合创始人Chelsea Finn在上,对斯坦福课题组一项最新世界模型工作kuakua连续 点赞。 生成看起来不错的视频很容易,难的是构建一个真正对机器人有用的通用模型——它需要紧密跟随动作, 还要足够准确以避免频繁幻觉。 这项研究,正是她在斯坦福带领的课题组与清华大学陈建宇团队联合提出的可控生成世界模型Ctrl-World。 这是一个能让机器人在"想象空间"中完成任务预演、策略评估与自我迭代的突破性方案。 核心数据显示,该模型使用零真机数据,大幅提升策略在某些在下游任务的指令跟随能力,成功率从38.7%提升至 83.4%,平均改进幅度达44.7%。 其相关论文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已发布于arXiv平台。 注:Ctrl-World专为通用机器人策略的策略在环轨迹推演而设计。它生成联合多视角预测(包括腕部视角),通过帧 级条件控制实现细粒度动作控制,并通过姿态条件记忆检索维持连贯的长时程动态。这些组件实现了:(1)在想象 中进行精 ...