Workflow
机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
机器之心·2025-08-01 09:30

核心观点 - 北京大学与银河通用机器人公司联合提出自适应性世界-动作模型DyWA,用于解决机器人非抓握操作中的复杂物理交互问题 [3][10] - DyWA通过联合建模动作与未来状态、动力学自适应机制和单视角输入设计,实现了对摩擦、质量等隐含因素的适应能力 [11][12][14] - 该方法在仿真和真实环境中展现出全面泛化能力,成功率显著优于基线方法,最高达到85% [17][18][20] 非抓握操作技术难点 - 复杂接触建模:涉及连续接触、多变摩擦力等物理交互,微小变化导致轨迹差异 [5] - 现实感知受限:单视角点云遮挡严重,多视角设置昂贵且难以部署 [8][9] - 传统方法依赖精确物理参数或仅关注几何信息,难以应对真实扰动 [7] DyWA核心技术 - 世界-动作模型:采用teacher-student框架,同时预测动作和未来状态,隐式建模动力学过程 [11] - 动力学自适应:通过历史观测推理隐含物理属性,用FiLM机制动态调整交互策略 [12][13] - 部署可行性:仅需单深度相机输入,通过大规模域随机化训练实现零样本迁移 [14] 性能表现 - 仿真benchmark显示在三种设置下成功率均超80%,最高达85.8% [17][18] - 真机实验对未见过物体实现70%成功率,适应不同摩擦面和质量分布 [20][24] - 与抓取策略协同工作可提升复杂场景整体成功率 [26] 应用场景 - 处理薄片、大型物体、复杂几何或密集场景下的操作任务 [3] - 实现推、翻等灵活操作,如推动银行卡、翻转宽大盒子等 [1][20]