具身智能数据平台AIRSPEED
搜索文档
极数迭代CEO佟显乔:具身智能的数据工程解决方案思考丨GAIR 2025
雷峰网· 2025-12-19 08:28
文章核心观点 - 具身智能数据是未来几年一个较有确定性的好赛道,虽然当前数据量稀缺,但未来需求体量巨大,具身数据服务有望成为机器人领域的下一个Scale AI [1][8] 具身智能的数据价值与现状 - 当前具身智能与机器人领域的数据供给存在显著缺口,现有数据集规模仅数千至十几万小时,与语言大模型的海量数据储备差距明显 [3][6] - 数据是具身智能发展的核心基石,其稀缺性、高成本与碎片化问题制约了机器人泛化能力的提升 [3] - 预测显示,具身智能数据市场规模将从2025年的4.4亿美元增长至2030年的50亿美元,总训练tokens预计从2025年的30T增长至2030年的1000T [9] 具身智能的数据瓶颈 - 主要瓶颈之一是成本飞涨,大规模高质量的数据采集(如动捕或真机采集)投入巨大 [19] - 瓶颈之二是模型跨本体能力弱,导致数据形成孤岛,难以制定统一标准 [19] - 瓶颈之三是难以评估数据的实际能力 [19] - 机器人领域Scaling Law依然存在,泛化能力与数据数量呈幂律关系,更多数据能带来更好效果,但现有数据量远不足以支撑较高的任务成功率 [11] 具身智能的技术路线与数据需求 - 技术路线主要分为“小脑加大脑”(对应system 1和system 2)的分层路线和端到端路线,两者对具身数据的需求都非常大 [14] - “大脑”(system 2)负责理解物理世界常识、拆解复杂任务;“小脑”(技能层)负责如抓取、按压等动作,需要人类示教和标注数据 [16][17] - 数据需求是大脑数据加上小脑数据,再乘以不同的机器人类别,因为跨本体数据复用困难 [19] 具身智能数据工程现状 - 具身智能数据本身是一项工程化工作,涉及从底层采集设计、标准确立到真实与仿真环境部署等一系列环节 [23] - 当前数据集现状是各做各的,包括操作类、移动类、逻辑语义类、导航类数据,尚无法确定能否被一个通用模型联系到一起 [25] - 数据采集方式多样,包括真机采集(如遥操、示教、动捕)和仿真采集,各有优劣,不同团队在不同方向探索 [27][29] - 解决数据孤岛问题的当前思路是“应收尽收”,即在数据的有效性(如遥操真机数据质量高)与通用性(如人类视频数据量大但效果差)之间寻求平衡 [34] 具身智能数据平台AIRSPEED解决方案 - 平台旨在通过高软硬件兼容性,兼容不同的机器人本体、遥操设备和仿真接口,实现真机与仿真数据的高效生产 [37] - 平台定位为第三方数据生产与管理解决方案,减少客户适配不同机器人与数据的复杂工作,通过配置化接口实现全流程数据生产 [39][41] - 针对真机数据提出“万物皆可达”,适配从遥操、示教到光冠、视觉位姿、动捕等多种采集方案 [43] - 针对仿真数据提出“万物皆可生”,从轨迹合成、资产合成、决策生成和预测生成四个维度进行统一管理 [45] - 平台引入AI Agent和大模型,用于自动标注、资源管理及模型评测,旨在构建高效的具身智能数据工具链 [47] - 平台在真实世界数据集构建上实现了30多倍的加速,在仿真方面有3.5倍的加速,以期通过飞轮效应提升模型迭代效率 [50] - 平台以数据集交付为中心,管理任务、设备、标注和用户,支持多种机器人(如星尘机器人)和遥操设备(如Open Arm机械臂、VR控制眼镜、诺亦腾动捕设备)接入 [52][56]