非抓握操作 - 财报，业绩电话会，研报，新闻

非抓握操作

搜索文档

自动驾驶之心· 2025-08-04 15:31

点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。本文的作者团队来自北京大学和银河通用机器人公司。第一作者为北京大学计算机学院前沿计算研究中心博士生吕江燃，主要研究方向为具身智能，聚焦于世界模型和机器人的灵巧操作，论文发表于 ICCV，TPAMI，RSS，CoRL，RAL 等机器人顶会顶刊。本文的通讯作者为北京大学计算机学院教授王亦洲和北京大学助理教授、银河通用创始人及CTO 王鹤。尽管当前的机器人视觉语言操作模型（VLA）展现出一定的泛化能力，但其操作模式仍以准静态的抓取与放置（pick-and-place）为主。相比之下，人类在操作物体时常常采用推动、翻转等更加灵活的方式。若机器人仅掌握抓取，将难以应对现实环境中的复杂任务。例如，抓起一张薄薄的银行卡，通常需要先将其推到桌边；而抓取一个宽大的盒子，则往往需要先将其翻转立起（如图 1 所示）：这些技能都属于一个重要的领域：非抓握操作（Non-prehensile Manipulation） ...

具身智能

非抓握操作

机器人

自适应性【世界 - 动作】模型Dynamics-adaptive World Action Model (DyWA)

具身智能

非抓握操作

机器人

自适应性【世界 - 动作】模型Dynamics-adaptive World Action Model (DyWA)

机器人不只会抓和放！北大x银河通用「世界-动作模型」赋能全面泛化的非抓握技能

具身智能之心· 2025-08-02 00:02

文章核心观点 - 北京大学与银河通用机器人公司联合提出自适应性【世界-动作】模型DyWA，旨在解决机器人非抓握操作中的复杂物理交互问题，该模型通过协同学习系统动力学和精细操作策略，显著提升泛化能力[4] - DyWA模型采用联合建模动作与未来状态的方法，使机器人具备"想象力"，同时引入动力学自适应机制，从历史观测中推理隐含物理属性，实现自适应物理交互[9][10][11] - 该模型仅依赖单视角点云输入，通过大规模域随机化仿真训练后，可实现从仿真到真实机器人的零样本迁移，在多种复杂场景下展现全面泛化能力[12][18][22][24] 非抓握操作挑战 - 非抓握操作涉及连续接触、多变摩擦力等复杂物理交互，微小摩擦变化可导致完全不同的运动轨迹[6] - 现实感知系统面临单视角点云严重遮挡、多视角设置昂贵等问题，已有方法假设的多视角输入和位姿追踪模块在现实中难以部署[7] - 传统物理建模方法依赖精确的物体质量、摩擦系数等难以获取的参数，而现有学习方法缺乏对潜在动力学属性的建模能力[6] DyWA核心方法 - 采用teacher-student框架，将全知信息训练的教师策略蒸馏给仅接收点云输入的学生模型，同时预测动作带来的未来状态[9] - 引入动态适应模块，通过分析历史观测序列推理隐含物理属性，并通过FiLM机制调控世界模型中间特征[10][11] - 设计上仅依赖单个深度相机获取的点云输入，通过大规模物理参数随机化训练实现零样本迁移[12] 实验结果 - 在仿真benchmark中，DyWA在已知状态(三视角)、未知状态(三视角)和未知状态(单视角)三种设置下均显著优于基线方法，成功率超过80%[15][16] - 真机实验显示DyWA对物体几何形状和质量分布均具有泛化能力，能将未见过物体推到目标位姿，成功率接近70%[18] - 可适应各种摩擦面，在高摩擦瑜伽垫和低摩擦塑料板上都能维持操作鲁棒性，并展现强大的闭环自适应能力[22][24] 应用协同 - DyWA可与抓取策略及视觉语言大模型(VLM)协同工作，先通过非抓握操作调整物体姿态，再由抓取策略完成任务，提升复杂场景整体成功率[25]

具身智能

非抓握操作

机器人

DyWA（Dynamics - adaptive World Action Model）

具身智能

非抓握操作

机器人

DyWA（Dynamics - adaptive World Action Model）

机器人不只会抓和放！北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能

机器之心· 2025-08-01 09:30

核心观点 - 北京大学与银河通用机器人公司联合提出自适应性世界-动作模型DyWA，用于解决机器人非抓握操作中的复杂物理交互问题 [3][10] - DyWA通过联合建模动作与未来状态、动力学自适应机制和单视角输入设计，实现了对摩擦、质量等隐含因素的适应能力 [11][12][14] - 该方法在仿真和真实环境中展现出全面泛化能力，成功率显著优于基线方法，最高达到85% [17][18][20] 非抓握操作技术难点 - 复杂接触建模：涉及连续接触、多变摩擦力等物理交互，微小变化导致轨迹差异 [5] - 现实感知受限：单视角点云遮挡严重，多视角设置昂贵且难以部署 [8][9] - 传统方法依赖精确物理参数或仅关注几何信息，难以应对真实扰动 [7] DyWA核心技术 - 世界-动作模型：采用teacher-student框架，同时预测动作和未来状态，隐式建模动力学过程 [11] - 动力学自适应：通过历史观测推理隐含物理属性，用FiLM机制动态调整交互策略 [12][13] - 部署可行性：仅需单深度相机输入，通过大规模域随机化训练实现零样本迁移 [14] 性能表现 - 仿真benchmark显示在三种设置下成功率均超80%，最高达85.8% [17][18] - 真机实验对未见过物体实现70%成功率，适应不同摩擦面和质量分布 [20][24] - 与抓取策略协同工作可提升复杂场景整体成功率 [26] 应用场景 - 处理薄片、大型物体、复杂几何或密集场景下的操作任务 [3] - 实现推、翻等灵活操作，如推动银行卡、翻转宽大盒子等 [1][20]

非抓握操作

具身智能

机器人

Dynamics-adaptive World Action Model (DyWA)

非抓握操作

具身智能

机器人

Dynamics-adaptive World Action Model (DyWA)