Markov Decision Process
搜索文档
单条演示即可抓取一切:北大团队突破通用抓取,适配所有灵巧手本体
36氪· 2025-10-29 16:55
技术框架与核心创新 - 提出DemoGrasp框架,通过单条成功抓取演示轨迹作为起点,将高维连续决策的多步马尔可夫决策过程重构为基于轨迹编辑的单步马尔可夫决策过程,显著提升学习效率[1][4] - 核心设计为“单条演示 + 单步强化学习”,用演示编辑任务替代从零开始的高维动作空间探索,将动作空间从输出所有关节指令简化为输出手腕和手指编辑参数[6][8] - 轨迹编辑包括手腕位姿编辑和手指关节编辑,通过统一变换手腕位点和对手指关节角施加增量,适配不同物体与姿态[4][11] 训练效率与性能 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练,使用单张RTX 4090显卡训练24小时即可收敛到超过90%的成功率[8] - 在权威数据集DexGraspNet上,视觉策略成功率达到92%,训练集到测试集的泛化差距仅为1%,并适应50厘米×50厘米范围的物体初始位置随机化[10] - 实验数据显示,在基于状态的设置下,DemoGrasp在训练集和测试集上的成功率分别达到95.2%和95.5%,在基于视觉的设置下分别达到92.2%和92.3%,均优于对比方法[13] 跨平台适配与泛化能力 - 框架无需调整训练超参数即可适配6种不同形态的机器人,包括五指、四指灵巧手、三指夹爪和平行夹爪,在175个物体上训练后,在多个未见物体数据集上达到84.6%的平均成功率[14] - 支持单目/双目、RGB/深度相机等多种相机观测,其中双目RGB相机组合效果最佳,能成功抓取小而薄的物体[12] - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略,并采用流匹配生成模型和域随机化技术,实现从仿真到真机的直接迁移[9][12] 真实环境应用效果 - 在真实机器人测试中,使用Franka机械臂和因时灵巧手成功抓取110个未见物体,常规大小物体分类成功率均超过90%[15] - 对于困难抓取任务,如扁平物体和小物体,策略成功率达到70%,其中工具类扁平物体成功率为60%,其他扁平物体为74.3%,小物体为76.7%[16] - 框架支持在杂乱多物体摆放场景下用语言指令引导抓取,真机单次抓取成功率达到84%,且对光照、背景和物体摆放的大幅变化具有鲁棒性[16]