灵巧手的第一份高难度考卷，中科院自动化所发布DexJoCo

文章核心观点 - 中科院自动化所等机构提出了名为DexJoCo的基准与工具链，旨在系统评估和推动机器人灵巧手从简单抓取走向复杂的功能性交互操作[2][4] 现有操作基准的局限性 - 现有机器人操作基准大多围绕机械臂夹爪及抓取与放置等基础任务展开，难以系统评估灵巧手在工具使用、双手协作、长程执行和精细交互中的真实能力[1] - 传统任务（如pick-and-place）难以充分体现灵巧手相较于普通夹爪在完成精细、接触丰富、功能性操作方面的核心优势[8][9] DexJoCo基准的设计与内容 - DexJoCo基于MuJoCo构建，包含11个功能性灵巧操作任务和1.1K条人类遥操作示范轨迹[4] - 任务设计覆盖四大核心能力维度：工具使用（如浇花、敲钉子）、双手协作（如双手装配、解锁平板）、长程执行（如操作微波炉）以及推理任务（如完成汉诺塔后续步骤）[11][12][14][15] - 任务强调功能性交互、手指级精细控制、任务顺序理解和双手协调能力，以评估灵巧手在真实复杂操作场景中的能力边界[16] DexJoCo作为完整工具链 - DexJoCo提供从任务构建、人类遥操作、轨迹采集、数据格式转换到模型训练与评测的完整流程[18] - 数据采集系统使用Rokoko Smartgloves和HTC Vive Tracker等硬件，整套成本约2300美元，旨在降低复杂操作示范数据的采集门槛[18] - 支持将数据转换为LeRobot和Diffusion Policy Zarr等常用格式，方便研究者训练和评测ACT、Diffusion Policy、π0.5、GR00T-N1.5等多种现代机器人学习模型[19] 当前模型在灵巧任务上的表现与挑战 - 在DexJoCo基准上的评测显示，包括ACT、Diffusion Policy、π0.5和GR00T N1.5在内的当前较先进机器人策略模型，在复杂灵巧操作任务中仍面临显著挑战[21] - 模型失败情况普遍：在视觉条件（如相机视角、光照、纹理）变化后成功率下降；在双手协作、插入装配、按钮点击等精细交互环节不稳定，例如按不准按钮、插不准孔位[23] - 这表明当前模型距离稳定可靠的人类级灵巧操作仍有明显差距，视觉、语言、触觉和高维手部动作之间缺乏更有效的统一建模方式[25] DexJoCo的目标与意义 - DexJoCo旨在构建一个标准化、可复现、可扩展的平台，以系统回答灵巧手的优势、VLA模型对高维动作空间的适应性、有效的数据采集方式及推动人类级操作的任务设计等关键问题[27] - 该基准致力于为机器人实现使用工具、双手协作、理解任务并改变环境状态的人类级灵巧操作提供一套标准化的基础设施[28][29]