视觉模仿学习

搜索文档
 单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
 量子位· 2025-10-29 13:11
 核心观点 - 北京大学及BeingBeyond团队提出DemoGrasp框架,通过将多步马尔可夫决策过程重构为基于轨迹编辑的“单步MDP”,解决了灵巧手通用抓取中传统强化学习面临的探索效率低、奖励函数设计复杂等挑战 [1][2][4]   技术原理与核心创新 - 核心创新在于用单条成功演示轨迹替代从零开始的探索,将高维抓取任务转化为演示编辑任务,再通过单步强化学习优化编辑参数 [4][6][7] - 方法以一次成功的抓取演示轨迹为起点,通过对轨迹中的机器人动作进行编辑以适应不同物体与姿态,包括改变腕部位姿以确定抓取位置,调整手指关节角度以确定抓取方式 [4][9][16] - 在紧凑动作空间的单步MDP问题上,使用单张RTX 4090显卡训练24小时即可收敛到成功率大于90% [12]   仿真训练与性能表现 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,策略网络根据初始观测输出手腕和手指编辑参数,通过海量试错学会根据不同形状物体输出合适参数 [10][11] - 在权威数据集DexGraspNet(3.4K物体)上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1% [17] - 性能显著优于现有方法:在基于状态的设定下,DemoGrasp在训练集、测试集(可见类别)和测试集(未见类别)的成功率分别为95.2%、95.5%和94.4%;在基于视觉的设定下,成功率分别为92.2%、92.3%和90.1% [18]   跨本体扩展与泛化能力 - 无需调整任何训练超参数,成功适配6种不同形态的机器人(五指、四指灵巧手,三指夹爪和平行夹爪),在175个物体上训练后,在多个未见过的物体数据集上达到84.6%的平均成功率 [19][20] - 具备强大的空间泛化能力,可适应大范围的物体初始位置随机化(50cm×50cm) [17]   虚实迁移与真机应用 - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,实现从仿真到真机的直接迁移 [13][14] - 在真实机器人测试中,使用Franka机械臂和因时灵巧手,成功抓取了110个未见过的物体 [21] - 对于常规大小的物体,抓取成功率均达到90%以上;对于扁平物体和小物体等困难抓取任务,成功率达到70% [22][24] - 支持在杂乱多物体摆放的场景下实现用语言指令引导抓取,真机单次抓取成功率达到84% [24]   技术实现细节 - 采用流匹配生成模型的方法学习从图像观测和机器人本体感知预测动作,训练时使用预训练的ViT提取图像特征并进行充分的域随机化以缩小仿真到真机的视觉差异 [23] - 适配单目/双目、RGB/深度相机等多种相机观测,实验表明双目RGB相机组合效果最佳,能更好地抓取小而薄的物体 [23]
 仅需 1 次演示,机器人就能像人手一样抓遍万物?DemoGrasp 刷新灵巧抓取天花板
 具身智能之心· 2025-10-04 21:35
 核心技术框架 - 采用“单条成功演示轨迹”替代传统从零开始的探索,将高维抓取任务转化为演示编辑任务 [4] - 通过单步强化学习优化编辑参数,极大简化了训练流程 [4][8] - 结合视觉模仿学习实现从仿真环境到真实场景的迁移 [4][8]   技术实现细节 - 演示轨迹编辑通过调整末端执行器变换和手部关节增量来适配不同物体,其中末端执行器变换用于调整手腕的6D位姿,手部关节增量用于调整手指关节角度 [9] - 单步马尔可夫决策过程将任务重构,观测仅包含初始手腕位姿、初始物体位姿和物体点云,动作仅为编辑参数 [9] - 奖励设计极为简化,仅使用抓取成功和碰撞惩罚的组合,无碰撞且抓取成功时奖励为1,有轻微桌面接触且成功时奖励为0.5,失败或严重碰撞时奖励为0 [9] - 训练效率高,通过IsaacGym的并行仿真,在单张RTX 4090 GPU上训练24小时即可收敛 [9]   仿真环境性能 - 在权威数据集DexGraspNet上刷新性能记录,在基于状态的设置下,训练集成功率达95.2%,测试集已见类别和未见类别成功率分别为95.5%和94.4% [10] - 在基于视觉的设置下,训练集成功率达92.2%,测试集已见类别和未见类别成功率分别为92.3%和90.1% [10] - 展现出极强的泛化能力,训练与测试的泛化差距仅1%,且在物体初始位置随机的情况下仍保持高成功率 [10]   跨平台与跨数据集泛化 - 无需调整超参数即可适配6种不同形态的机器人抓取设备,在未见数据集上平均成功率达84.6% [11] - 多手指手表现最优,例如FR3+Inspire Hand在VisualDexterity数据集上成功率高达99.1% [11] - 仅使用175个物体进行训练,即可在5个不同分布的未见数据集上实现零样本测试,证明其数据效率极高 [12][18]   真实场景应用 - 在真实世界中测试110个未见物体,整体成功率达86.5%,其中规则形状物体如瓶子、盒子、球类水果和软玩具的成功率分别达到95.0%、93.6%、98.3%和96.0% [14] - 首次实现无严重碰撞抓取小薄物体,如硬币和卡片,对此类传统难点物体的抓取成功率达到60.0%至76.7% [14] - 支持语言引导抓取和杂乱场景抓取,在真实杂乱场景中成功率超过80%,且对光照和背景变化具有鲁棒性 [14]   技术优势与局限 - 核心价值在于用简单设计解决复杂问题,在通用性、高效性和鲁棒性三个维度上突破现有方法的局限 [20] - 当前局限性包括无法处理功能性抓取、对高度杂乱场景适应能力弱、闭环能力不足以及小薄物体抓取成功率仍有提升空间 [17] - 未来发展方向包括拆分演示轨迹为短片段以增强闭环能力、融合视觉反馈以应对动态场景、结合语言模型以提升功能性抓取的理解能力 [19]


