文章核心观点 - 灵巧抓取是机器人具身智能领域面临的主要技术瓶颈,其核心挑战在于缺乏大规模、高质量、包含力觉信息的多模态操作数据 [1][2][11][12][13] - 灵巧智能科技有限公司发布的DexCanvas数据集通过“真实+合成数据”双轮驱动模式,提供了包含完整力/接触标注的大规模人手操作数据,旨在解决行业数据瓶颈 [15][16][21] - DexCanvas数据集在采集效率、数据质量和成本间取得了平衡,其基于真实人类演示并通过物理仿真恢复力控的方法,显著提升了数据的规模与泛化能力,为物理智能的发展提供了基础设施级解决方案 [20][21][27][30] 现有灵巧抓取与数据采集方案 - 灵巧抓取的学习方法主要分为模仿学习和强化学习两类,模仿学习通过观察演示学习,强化学习则通过设定奖惩机制学习,但后者需要大量训练数据和精心设计的机制以确保稳定性 [4] - 数据采集主要依赖遥操作技术,包括基于视觉的方案、动捕方式以及VR/AR等,其中动捕系统对光照变化和遮挡具有较强鲁棒性,而视觉方案常受环境因素影响 [5] - 现有灵巧手硬件主要分为两指夹爪和多指拟人化手,两指夹具简单可靠但自由度低,而具备20+自由度的拟人化手更适应为人类设计的环境 [2] 灵巧操作数据面临的定律与瓶颈 - 行业数据存在“规模、真实性、力觉信息只能三选二”的定律,大规模开源数据集往往缺乏关键的力控信息 [6][7] - 真实场景下的灵巧操作数据采集成本极高,开源数据集通常仅数万条且不含触觉信息,而仿真数据虽可达百万甚至亿万级别,但sim2real泛化成功率有时低于70% [9][10] - 技术瓶颈在于难以在复杂操作中实时感知微小力度变化,且传统方法因高维度和复杂接触动力学而泛化能力不足,核心问题是大规模高质量多模态数据的缺失 [11][12][14] DexCanvas数据集的突破与优势 - DexCanvas弥补了开源数据集力/触觉信息的缺失,每条轨迹都包含完整的多指力/接触标注,并为20+自由度系统优化 [16][17] - 数据集提供了从动捕到MANO拟合、物理重演至五指灵巧手执行的全套处理代码,并在HuggingFace上提供了预处理后的可直接训练版本 [18][19] - 数据集综合指标优于常规方案,在效率、成本和质量上取得平衡,采集效率与仿真同为五星,成本为三星,质量为四星 [20] - 数据集包含超1000小时真人多模态演示数据与10万小时物理仿真合成数据,涵盖亚毫米级轨迹和物理一致的接触力信息,包含4种同步模态 [21] DexCanvas的数据生成方法与特性 - 数据生成分为三步:使用20个动捕相机以亚毫米精度采集真人演示;通过物理仿真环境下的强化学习智能体复现动作以恢复力控;通过改变物体参数将1000小时演示扩充为10万小时增强数据 [25][27][28] - 该方法基于真实人类演示,仿真用于“显影”隐藏的物理信息,而非从零生成动作,避免了仿真漏洞,且仿真的是人手而非特定机器人手,使其具备极佳的跨平台泛化能力 [27][30] - 独创的物理信息完备的操作轨迹复刻流程,自动生成了缺失的力觉和接触信息,力控数据在规模扩充后得以保持 [22][29]
DexCanvas:具身数据的规模、真实、力觉真的突破不了三缺一吗?
具身智能之心·2025-10-10 08:02