Workflow
UMI
icon
搜索文档
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享
量子位· 2026-01-08 20:08
文章核心观点 - 具身智能行业已进入下半场,数据质量成为制约模型训练的关键瓶颈,许多团队模型训练失败的根本原因在于数据生成的起点,而非后续的模型或算力问题[1][7] - 通用操作接口是解决具身智能数据采集问题的新兴前沿方向,其核心在于以与机器人本体解耦的方式记录人类操作,形成通用、可复现的数据[5] - 鹿明机器人作为UMI领域的代表性公司,通过其自研的FastUMI Pro硬件及配套的数据治理体系,致力于提供高质量、100%可复现的轨迹数据,以解决行业数据成本高、效率低、存在孤岛等痛点[9][15][23] 具身智能数据采集的现状与困境 - **数据成本异常高昂**:在美国,采集一小时的训练数据成本约为100-200美元,而训练一个相当于GPT-3规模的具身模型需要约7.9亿小时数据,按当前市价需耗费数百亿美元[19] - **采集效率低下**:2023-2024年间主流的遥操作方式,每小时仅能采集约35条数据,效率极低[21] - **存在严重的数据孤岛问题**:遥操作采集的数据与特定机器人本体强绑定,导致A机器人采集的数据很难应用于B机器人,造成重复建设和资源浪费[21][22] - **行业数据解法多样**:目前行业解决数据难题主要有四种路径,包括遥操作数据、仿真数据、人类视频数据和UMI[8] UMI技术解析与行业现状 - **UMI技术定义**:UMI旨在通过解耦的方式,统一记录“操作意图+运动轨迹+多模态感知”,供不同形态的机器人学习复现[5] - **行业起步较晚**:UMI在2024年2月由斯坦福提出,在2024年9月之前仍属冷门方向[5][6] - **成功案例稀少**:尽管涉足UMI的团队增多,但能成功训练出模型的团队极少,国内外仅有个别公司及高校团队取得成果[26][28][29] - **多数尝试失败**:许多团队即使能跑出演示,其效果也仅能维持3-4秒,且不流畅[30] UMI数据训练失败的根本原因 - **核心问题在于数据源头**:训练失败的主因并非算法或模型规模,而是大量UMI数据从生成之初就不具备进入训练管线的条件,属于“不合格”数据[31][32] - **硬件能力不足是首要瓶颈**:许多UMI设备的核心组件性能差,导致画面覆盖有限、画质差、帧率抖动,破坏了动作与视觉的因果关系,使模型无法学习[43][44] - **系统设计存在缺陷**:部分产品由现成模块拼凑,带宽架构脆弱,易出现掉帧等问题,导致数据质量糟糕且无法稳定复现[46] - **数据质量存在“脏数据”与“废数据”**:“脏数据”指包含大量抖动、漂移和时间错位的低信息密度数据;“废数据”指完全复制人类自然行为、未经任何任务技巧设计的原始数据,两者均难以用于训练出有效的交互策略[51][55][59][62] 高质量UMI数据的核心要求 - **多模态严格对齐**:要求画面与动作、空间位置严格对齐,且不同传感器之间需达到毫秒级同步[39] - **具备物理空间可复现性**:采集的数据必须是高一致性、高密度且可复现的时序数据结构[41] - **需要注入任务技巧**:有效的数据并非简单记录人类行为,而需要根据具体任务注入采集技巧和设计,例如叠衣服任务中的抖动方向与速度控制[60][62] UMI工程范式的特殊性 - **强耦合系统**:UMI场景下,硬件、数据和算法环环相扣,硬件决定数据质量,数据决定算法性能,算法又反向约束硬件与数据设计,传统先硬件后软件的开发范式在此失效[64][65] - **需系统化自洽设计**:成功的UMI工程需要系统性的自洽设计,而非简单的功能拼接[63] 鹿明机器人的解决方案与成果 - **推出核心硬件产品FastUMI Pro**:该产品为无本体数采硬件,重量约600多克,可夹起2-3公斤物品,支持触觉、听觉、六维力等多模态输入,并宣称其空间精度达到全球最高的1毫米[9][10][11][12] - **建立工业级数据质量评估体系**:以“可复现”为第一性原理,建立了8道数据质量评估流程,承诺只交付100%可复现的轨迹数据[15] - **完成多项前沿学术与工程工作**: - **FastUMI**:全球首个将学术界UMI工作升级为工业级系统的工作,于2024年7-8月完成,同年9月被CoRL 2025收录,旨在提升采集效率与数据质量[71][72] - **FastUMI 100K**:团队带领11人在3个月内采集了10万条真机数据,构建了全球首个大型UMI数据集,并积累了大规模数据治理经验[73][74][75] - **Fastumi-MLM**:实现了将UMI技术应用于“狗+机械臂”的新型机器人构型,属大陆地区首创[76][77] - **其他研究**:包括在空间理解模型、大规模数据集构建及异步流匹配框架等方面的创新工作[70][78]