非抓握操作

搜索文档
机器人不只会抓和放!北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能
具身智能之心· 2025-08-02 00:02
文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA,旨在解决机器人非抓握操作中的复杂物理交互问题,该模型通过协同学习系统动力学和精细操作策略,显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法,使机器人具备"想象力",同时引入动力学自适应机制,从历史观测中推理隐含物理属性,实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入,通过大规模域随机化仿真训练后,可实现从仿真到真实机器人的零样本迁移,在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互,微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题,已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数,而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架,将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型,同时预测动作带来的未来状态[9] - 引入动态适应模块,通过分析历史观测序列推理隐含物理属性,并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入,通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中,DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法,成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力,能将未见过物体推到目标位姿,成功率接近70%[18] - 可适应各种摩擦面,在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性,并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作,先通过非抓握操作调整物体姿态,再由抓取策略完成任务,提升复杂场景整体成功率[25]
机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
机器之心· 2025-08-01 09:30
核心观点 - 北京大学与银河通用机器人公司联合提出自适应性世界-动作模型DyWA,用于解决机器人非抓握操作中的复杂物理交互问题 [3][10] - DyWA通过联合建模动作与未来状态、动力学自适应机制和单视角输入设计,实现了对摩擦、质量等隐含因素的适应能力 [11][12][14] - 该方法在仿真和真实环境中展现出全面泛化能力,成功率显著优于基线方法,最高达到85% [17][18][20] 非抓握操作技术难点 - 复杂接触建模:涉及连续接触、多变摩擦力等物理交互,微小变化导致轨迹差异 [5] - 现实感知受限:单视角点云遮挡严重,多视角设置昂贵且难以部署 [8][9] - 传统方法依赖精确物理参数或仅关注几何信息,难以应对真实扰动 [7] DyWA核心技术 - 世界-动作模型:采用teacher-student框架,同时预测动作和未来状态,隐式建模动力学过程 [11] - 动力学自适应:通过历史观测推理隐含物理属性,用FiLM机制动态调整交互策略 [12][13] - 部署可行性:仅需单深度相机输入,通过大规模域随机化训练实现零样本迁移 [14] 性能表现 - 仿真benchmark显示在三种设置下成功率均超80%,最高达85.8% [17][18] - 真机实验对未见过物体实现70%成功率,适应不同摩擦面和质量分布 [20][24] - 与抓取策略协同工作可提升复杂场景整体成功率 [26] 应用场景 - 处理薄片、大型物体、复杂几何或密集场景下的操作任务 [3] - 实现推、翻等灵活操作,如推动银行卡、翻转宽大盒子等 [1][20]