DemoGrasp - 财报，业绩电话会，研报，新闻

DemoGrasp

搜索文档

36氪· 2025-10-29 16:55

技术框架与核心创新 - 提出DemoGrasp框架，通过单条成功抓取演示轨迹作为起点，将高维连续决策的多步马尔可夫决策过程重构为基于轨迹编辑的单步马尔可夫决策过程，显著提升学习效率[1][4] - 核心设计为“单条演示 + 单步强化学习”，用演示编辑任务替代从零开始的高维动作空间探索，将动作空间从输出所有关节指令简化为输出手腕和手指编辑参数[6][8] - 轨迹编辑包括手腕位姿编辑和手指关节编辑，通过统一变换手腕位点和对手指关节角施加增量，适配不同物体与姿态[4][11] 训练效率与性能 - 在仿真环境中利用IsaacGym创建数千个并行世界进行训练，使用单张RTX 4090显卡训练24小时即可收敛到超过90%的成功率[8] - 在权威数据集DexGraspNet上，视觉策略成功率达到92%，训练集到测试集的泛化差距仅为1%，并适应50厘米×50厘米范围的物体初始位置随机化[10] - 实验数据显示，在基于状态的设置下，DemoGrasp在训练集和测试集上的成功率分别达到95.2%和95.5%，在基于视觉的设置下分别达到92.2%和92.3%，均优于对比方法[13] 跨平台适配与泛化能力 - 框架无需调整训练超参数即可适配6种不同形态的机器人，包括五指、四指灵巧手、三指夹爪和平行夹爪，在175个物体上训练后，在多个未见物体数据集上达到84.6%的平均成功率[14] - 支持单目/双目、RGB/深度相机等多种相机观测，其中双目RGB相机组合效果最佳，能成功抓取小而薄的物体[12] - 通过视觉模仿学习将策略蒸馏成与真机对齐的RGB策略，并采用流匹配生成模型和域随机化技术，实现从仿真到真机的直接迁移[9][12] 真实环境应用效果 - 在真实机器人测试中，使用Franka机械臂和因时灵巧手成功抓取110个未见物体，常规大小物体分类成功率均超过90%[15] - 对于困难抓取任务，如扁平物体和小物体，策略成功率达到70%，其中工具类扁平物体成功率为60%，其他扁平物体为74.3%，小物体为76.7%[16] - 框架支持在杂乱多物体摆放场景下用语言指令引导抓取，真机单次抓取成功率达到84%，且对光照、背景和物体摆放的大幅变化具有鲁棒性[16]

Reinforcement Learning

Markov Decision Process

Robotics

DemoGrasp

Reinforcement Learning

Markov Decision Process

Robotics

DemoGrasp

DemoGrasp：一次演示是怎么实现灵巧手通用抓取的？

具身智能之心· 2025-10-10 08:02

技术方法与核心创新 - 提出DemoGrasp方法一种简单高效的通用灵巧抓取学习方法仅需从抓取特定物体的单条成功演示轨迹出发通过编辑轨迹中的机器人动作来适配新物体与新姿态 [2] - 将轨迹编辑过程构建为单步马尔可夫决策过程在仿真环境中通过强化学习对适用于数百个物体的通用策略进行并行优化奖励函数设计简洁仅包含二元成功项与碰撞惩罚项 [2] - 该方法展现出优异的迁移能力仅在175个物体上完成训练却在6个未见过的物体数据集上针对不同灵巧手硬件构型实现了84.6%的平均成功率 [2] 性能表现与实验结果 - 在仿真实验中使用Shadow手操作DexGraspNet数据集物体时 DemoGrasp的成功率达到95% 性能超越现有最优方法 [2] - 借助基于视觉的模仿学习该策略成功抓取了110个未见过的真实物体包括小型和薄型物体并能适配空间位置背景与光照的变化 [3] - 策略支持RGB与深度两种输入类型并且可扩展至杂乱场景下的语言引导抓取任务 [3] 应用前景与行业意义 - DemoGrasp提出了一套简单高效可扩展的强化学习框架对任意一款灵巧手只要采集一条抓取演示就能学会对所有物品的通用抓取策略 [6] - 方法在六款灵巧手本体六个物体数据集上得到了广泛验证且通过sim2real在真机上对110种物品实现高成功率抓取 [6] - 灵巧手的设计与难题是打通"手-眼-脑"感知闭环的关键技术 [10]

仅需 1 次演示，机器人就能像人手一样抓遍万物？DemoGrasp 刷新灵巧抓取天花板

具身智能之心· 2025-10-04 21:35

核心技术框架 - 采用“单条成功演示轨迹”替代传统从零开始的探索，将高维抓取任务转化为演示编辑任务 [4] - 通过单步强化学习优化编辑参数，极大简化了训练流程 [4][8] - 结合视觉模仿学习实现从仿真环境到真实场景的迁移 [4][8] 技术实现细节 - 演示轨迹编辑通过调整末端执行器变换和手部关节增量来适配不同物体，其中末端执行器变换用于调整手腕的6D位姿，手部关节增量用于调整手指关节角度 [9] - 单步马尔可夫决策过程将任务重构，观测仅包含初始手腕位姿、初始物体位姿和物体点云，动作仅为编辑参数 [9] - 奖励设计极为简化，仅使用抓取成功和碰撞惩罚的组合，无碰撞且抓取成功时奖励为1，有轻微桌面接触且成功时奖励为0.5，失败或严重碰撞时奖励为0 [9] - 训练效率高，通过IsaacGym的并行仿真，在单张RTX 4090 GPU上训练24小时即可收敛 [9] 仿真环境性能 - 在权威数据集DexGraspNet上刷新性能记录，在基于状态的设置下，训练集成功率达95.2%，测试集已见类别和未见类别成功率分别为95.5%和94.4% [10] - 在基于视觉的设置下，训练集成功率达92.2%，测试集已见类别和未见类别成功率分别为92.3%和90.1% [10] - 展现出极强的泛化能力，训练与测试的泛化差距仅1%，且在物体初始位置随机的情况下仍保持高成功率 [10] 跨平台与跨数据集泛化 - 无需调整超参数即可适配6种不同形态的机器人抓取设备，在未见数据集上平均成功率达84.6% [11] - 多手指手表现最优，例如FR3+Inspire Hand在VisualDexterity数据集上成功率高达99.1% [11] - 仅使用175个物体进行训练，即可在5个不同分布的未见数据集上实现零样本测试，证明其数据效率极高 [12][18] 真实场景应用 - 在真实世界中测试110个未见物体，整体成功率达86.5%，其中规则形状物体如瓶子、盒子、球类水果和软玩具的成功率分别达到95.0%、93.6%、98.3%和96.0% [14] - 首次实现无严重碰撞抓取小薄物体，如硬币和卡片，对此类传统难点物体的抓取成功率达到60.0%至76.7% [14] - 支持语言引导抓取和杂乱场景抓取，在真实杂乱场景中成功率超过80%，且对光照和背景变化具有鲁棒性 [14] 技术优势与局限 - 核心价值在于用简单设计解决复杂问题，在通用性、高效性和鲁棒性三个维度上突破现有方法的局限 [20] - 当前局限性包括无法处理功能性抓取、对高度杂乱场景适应能力弱、闭环能力不足以及小薄物体抓取成功率仍有提升空间 [17] - 未来发展方向包括拆分演示轨迹为短片段以增强闭环能力、融合视觉反馈以应对动态场景、结合语言模型以提升功能性抓取的理解能力 [19]