Workflow
OmniDexGrasp 揭秘:基础模型 + 力反馈,让机器人 “看懂指令、灵活抓握” 的通用方案
具身智能之心·2025-10-31 08:04

技术方案核心创新 - 提出“基础模型生成人类抓握图像 + 动作迁移 + 力反馈控制”的三段式框架,以解决灵巧抓取领域“泛化性”与“物理可行性”难以兼顾的瓶颈 [1] - 核心设计是不直接生成机器人动作,而是以人类抓握作为通用中间表示,串联泛化生成、动作迁移和力控执行,既保留基础模型的泛化能力,又通过精准转化解决物理落地问题 [4] - 该方案在模拟与真实场景中实现了跨指令、跨机器人、跨任务的全能灵巧抓取 [1] 方案模块详解 - 模块1:基础模型生成人类抓握图像:输入支持全场景指令,包括自然语言、视觉提示或单张演示图,通过正负提示模板优化生成图像质量,确保符合指令且具备物理合理性 [6] - 模块2:人类图像到机器人动作迁移:通过手-物三维重建、灵巧重定向和可执行动作转换三步策略,将人类抓握意图转化为适配不同机器人手型且符合真实场景物体位姿的关节动作 [9] - 模块3:力感知自适应抓取:采用双阶段位姿设计和力约束位置控制策略,通过力传感器实时监测接触力,使脆弱物体抓取成功率从56%提升至88%且无损坏风险 [12][13] 性能评估与对比 - 在6类真实世界灵巧抓取任务测试中,平均成功率达到87.9%,其中Human-Robot Handover任务成功率高达100% [15] - 与传统方法相比优势显著,例如在语义抓取任务中,“液体容器”抓取成功率从25%升至80%,“手柄”从20%升至60%,“脆弱物体”从55.6%升至91.7% [16][17] - 在模拟场景的33类物体测试中,面对“新类别”物体,传统方法性能暴跌,而该方案凭借基础模型泛化能力保持稳定,是唯一能应对完全陌生物体的方案 [18][19] 技术通用性与扩展性 - 方案能适配多种灵巧手,包括Inspire Hand、Leap Hand、RoboSense Hand和Shadow Hand [20] - 技术可自然扩展到操控任务,通过生成抓取后物体运动轨迹,实现“抓取-移动-放置”的完整操控,为通用机器人操控提供延伸可能 [20] - 模型适配性强,兼容闭源与开源基础模型,开源模型经任务微调后性能可大幅提升,如Wan2.2微调后稳定性得分从2.52升至3.49 [8] 行业影响与未来方向 - 该方案为灵巧抓取技术产业化提供了兼顾泛化性与实用性的参考范本,尤其适用于追求快速落地的工业场景或家庭服务机器人 [23] - 未来方向包括多模态观测融合以提升复杂场景抓取精度,以及深化操控任务以实现端到端的通用操控 [22] - 关键启示在于“人类抓握”是绝佳的中间表示,有效衔接了基础模型的泛化能力与不同机器人的适配需求 [21]