文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA,旨在解决机器人非抓握操作中的复杂物理交互问题,该模型通过协同学习系统动力学和精细操作策略,显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法,使机器人具备"想象力",同时引入动力学自适应机制,从历史观测中推理隐含物理属性,实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入,通过大规模域随机化仿真训练后,可实现从仿真到真实机器人的零样本迁移,在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互,微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题,已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数,而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架,将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型,同时预测动作带来的未来状态[9] - 引入动态适应模块,通过分析历史观测序列推理隐含物理属性,并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入,通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中,DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法,成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力,能将未见过物体推到目标位姿,成功率接近70%[18] - 可适应各种摩擦面,在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性,并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作,先通过非抓握操作调整物体姿态,再由抓取策略完成任务,提升复杂场景整体成功率[25]
机器人不只会抓和放!北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能
具身智能之心·2025-08-02 00:02