机器人不只会抓和放！北大x银河通用「世界-动作模型」来了

点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。本文的作者团队来自北京大学和银河通用机器人公司。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃，主要研究方向为具身智能，聚焦于世界模型和机器人的灵巧操作，论文发表于 ICCV，TPAMI，RSS，CoRL，RAL 等机器人顶会顶刊。本文的通讯作者为北京大学计算机学院教授王亦洲和北京大学助理教授、银河通用创始人及CTO 王鹤。尽管当前的机器人视觉语言操作模型（VLA）展现出一定的泛化能力，但其操作模式仍以准静态的抓取与放置（pick-and-place）为主。相比之下，人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取，将难以应对现实环境中的复杂任务。例如，抓起一张薄薄的银行卡，通常需要先将其推到桌边；而抓取一个宽大的盒子，则往往需要先将其翻转立起（如图 1 所示）：这些技能都属于一个重要的领域：非抓握操作（Non-prehensile Manipulation） ...