Workflow
斯坦福机器人新作!灵巧操作跟人学采茶做早餐,CoRL 2025提名最佳论文
具身智能之心·2025-10-02 18:04

文章核心观点 - 提出一种名为DexUMI的数据采集与策略学习框架,通过硬件和软件双重适配,以人手作为自然接口将灵巧操作技能迁移至多种灵巧手 [4] - 该框架相比传统遥操作方法,数据采集效率提升3.2倍,在多项复杂任务中平均成功率高达86% [10][35] - 框架验证了其有效性,特别是在国产灵巧手星动XHAND 1上表现出色,为大规模灵巧手现实数据高效采集建立了新范式 [7][35][38][40] DexUMI框架的技术原理 - 硬件创新:为每款灵巧手设计专用可穿戴外骨骼装置,通过硬件优化参数精准匹配灵巧手指运动轨迹,并采用编码器、150°广角相机和iPhone ARKit技术追踪关节运动和手腕位姿 [19][20][23] - 软件适配:采用包含四个步骤的数据处理流水线,包括人手与外骨骼分割、环境背景修复、生成对应灵巧手视频、机器人示教视频合成,确保训练与部署阶段视觉输入一致 [24][25][28][29] - 核心优势:直接提供触觉反馈,而典型遥操作系统通常无法提供,同时效率远超传统遥操作方法 [37] 实验验证与性能表现 - 测试平台:在两种灵巧手硬件平台上验证,包括欠驱动的Inspire手(12自由度,6主动自由度)和全驱动的星动XHAND 1(12个主动自由度) [10][34] - 任务设置:包含立方体任务、蛋盒开启、茶艺操作、厨房任务等四项现实任务,测试基础操作精度、复杂手型控制、长时序任务综合能力 [31][34] - 关键结果:软件适配对弥合视觉差距至关重要,在两种灵巧手上均表现优异,平均任务成功率达到86% [10][35] 星动纪元XHAND 1的突出表现 - 技术特点:采用全驱动设计和独特的关节全直驱技术,具备12个主动自由度,并配备指尖270度覆盖的高精度触觉传感器 [34][40][42] - 任务表现:单独完成了包含四个连续步骤的厨房长序列任务,展示了在长时序任务中结合精确动作、触觉感知及非指尖操作的综合能力 [40] - 行业意义:其卓越表现为协同打造科研基础设施、建立数据采集共享社区提供了可能,将加速灵巧操作在实际应用场景的落地 [42]