流匹配生成模型

搜索文档
 单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
 量子位· 2025-10-29 13:11
 核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4]   技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12]   仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18]   跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17]   虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24]   技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]

