仅需 1 次演示，机器人就能像人手一样抓遍万物？DemoGrasp 刷新灵巧抓取天花板

核心技术框架 - 采用“单条成功演示轨迹”替代传统从零开始的探索，将高维抓取任务转化为演示编辑任务 [4] - 通过单步强化学习优化编辑参数，极大简化了训练流程 [4][8] - 结合视觉模仿学习实现从仿真环境到真实场景的迁移 [4][8] 技术实现细节 - 演示轨迹编辑通过调整末端执行器变换和手部关节增量来适配不同物体，其中末端执行器变换用于调整手腕的6D位姿，手部关节增量用于调整手指关节角度 [9] - 单步马尔可夫决策过程将任务重构，观测仅包含初始手腕位姿、初始物体位姿和物体点云，动作仅为编辑参数 [9] - 奖励设计极为简化，仅使用抓取成功和碰撞惩罚的组合，无碰撞且抓取成功时奖励为1，有轻微桌面接触且成功时奖励为0.5，失败或严重碰撞时奖励为0 [9] - 训练效率高，通过IsaacGym的并行仿真，在单张RTX 4090 GPU上训练24小时即可收敛 [9] 仿真环境性能 - 在权威数据集DexGraspNet上刷新性能记录，在基于状态的设置下，训练集成功率达95.2%，测试集已见类别和未见类别成功率分别为95.5%和94.4% [10] - 在基于视觉的设置下，训练集成功率达92.2%，测试集已见类别和未见类别成功率分别为92.3%和90.1% [10] - 展现出极强的泛化能力，训练与测试的泛化差距仅1%，且在物体初始位置随机的情况下仍保持高成功率 [10] 跨平台与跨数据集泛化 - 无需调整超参数即可适配6种不同形态的机器人抓取设备，在未见数据集上平均成功率达84.6% [11] - 多手指手表现最优，例如FR3+Inspire Hand在VisualDexterity数据集上成功率高达99.1% [11] - 仅使用175个物体进行训练，即可在5个不同分布的未见数据集上实现零样本测试，证明其数据效率极高 [12][18] 真实场景应用 - 在真实世界中测试110个未见物体，整体成功率达86.5%，其中规则形状物体如瓶子、盒子、球类水果和软玩具的成功率分别达到95.0%、93.6%、98.3%和96.0% [14] - 首次实现无严重碰撞抓取小薄物体，如硬币和卡片，对此类传统难点物体的抓取成功率达到60.0%至76.7% [14] - 支持语言引导抓取和杂乱场景抓取，在真实杂乱场景中成功率超过80%，且对光照和背景变化具有鲁棒性 [14] 技术优势与局限 - 核心价值在于用简单设计解决复杂问题，在通用性、高效性和鲁棒性三个维度上突破现有方法的局限 [20] - 当前局限性包括无法处理功能性抓取、对高度杂乱场景适应能力弱、闭环能力不足以及小薄物体抓取成功率仍有提升空间 [17] - 未来发展方向包括拆分演示轨迹为短片段以增强闭环能力、融合视觉反馈以应对动态场景、结合语言模型以提升功能性抓取的理解能力 [19]