单步马尔可夫决策过程
搜索文档
DemoGrasp:一次演示是怎么实现灵巧手通用抓取的?
具身智能之心· 2025-10-10 08:02
技术方法与核心创新 - 提出DemoGrasp方法 一种简单高效的通用灵巧抓取学习方法 仅需从抓取特定物体的单条成功演示轨迹出发 通过编辑轨迹中的机器人动作来适配新物体与新姿态 [2] - 将轨迹编辑过程构建为单步马尔可夫决策过程 在仿真环境中通过强化学习对适用于数百个物体的通用策略进行并行优化 奖励函数设计简洁 仅包含二元成功项与碰撞惩罚项 [2] - 该方法展现出优异的迁移能力 仅在175个物体上完成训练 却在6个未见过的物体数据集上 针对不同灵巧手硬件构型实现了84.6%的平均成功率 [2] 性能表现与实验结果 - 在仿真实验中 使用Shadow手操作DexGraspNet数据集物体时 DemoGrasp的成功率达到95% 性能超越现有最优方法 [2] - 借助基于视觉的模仿学习 该策略成功抓取了110个未见过的真实物体 包括小型和薄型物体 并能适配空间位置 背景与光照的变化 [3] - 策略支持RGB与深度两种输入类型 并且可扩展至杂乱场景下的语言引导抓取任务 [3] 应用前景与行业意义 - DemoGrasp提出了一套简单 高效 可扩展的强化学习框架 对任意一款灵巧手 只要采集一条抓取演示 就能学会对所有物品的通用抓取策略 [6] - 方法在六款灵巧手本体 六个物体数据集上得到了广泛验证 且通过sim2real在真机上对110种物品实现高成功率抓取 [6] - 灵巧手的设计与难题是打通"手-眼-脑"感知闭环的关键技术 [10]