具身智能数据平台AIRSPEED - 财报，业绩电话会，研报，新闻

具身智能数据平台AIRSPEED

搜索文档

极数迭代CEO佟显乔：具身智能的数据工程解决方案思考丨GAIR 2025

雷峰网· 2025-12-19 08:28

文章核心观点 - 具身智能数据是未来几年一个较有确定性的好赛道，虽然当前数据量稀缺，但未来需求体量巨大，具身数据服务有望成为机器人领域的下一个Scale AI [1][8] 具身智能的数据价值与现状 - 当前具身智能与机器人领域的数据供给存在显著缺口，现有数据集规模仅数千至十几万小时，与语言大模型的海量数据储备差距明显 [3][6] - 数据是具身智能发展的核心基石，其稀缺性、高成本与碎片化问题制约了机器人泛化能力的提升 [3] - 预测显示，具身智能数据市场规模将从2025年的4.4亿美元增长至2030年的50亿美元，总训练tokens预计从2025年的30T增长至2030年的1000T [9] 具身智能的数据瓶颈 - 主要瓶颈之一是成本飞涨，大规模高质量的数据采集（如动捕或真机采集）投入巨大 [19] - 瓶颈之二是模型跨本体能力弱，导致数据形成孤岛，难以制定统一标准 [19] - 瓶颈之三是难以评估数据的实际能力 [19] - 机器人领域Scaling Law依然存在，泛化能力与数据数量呈幂律关系，更多数据能带来更好效果，但现有数据量远不足以支撑较高的任务成功率 [11] 具身智能的技术路线与数据需求 - 技术路线主要分为“小脑加大脑”（对应system 1和system 2）的分层路线和端到端路线，两者对具身数据的需求都非常大 [14] - “大脑”（system 2）负责理解物理世界常识、拆解复杂任务；“小脑”（技能层）负责如抓取、按压等动作，需要人类示教和标注数据 [16][17] - 数据需求是大脑数据加上小脑数据，再乘以不同的机器人类别，因为跨本体数据复用困难 [19] 具身智能数据工程现状 - 具身智能数据本身是一项工程化工作，涉及从底层采集设计、标准确立到真实与仿真环境部署等一系列环节 [23] - 当前数据集现状是各做各的，包括操作类、移动类、逻辑语义类、导航类数据，尚无法确定能否被一个通用模型联系到一起 [25] - 数据采集方式多样，包括真机采集（如遥操、示教、动捕）和仿真采集，各有优劣，不同团队在不同方向探索 [27][29] - 解决数据孤岛问题的当前思路是“应收尽收”，即在数据的有效性（如遥操真机数据质量高）与通用性（如人类视频数据量大但效果差）之间寻求平衡 [34] 具身智能数据平台AIRSPEED解决方案 - 平台旨在通过高软硬件兼容性，兼容不同的机器人本体、遥操设备和仿真接口，实现真机与仿真数据的高效生产 [37] - 平台定位为第三方数据生产与管理解决方案，减少客户适配不同机器人与数据的复杂工作，通过配置化接口实现全流程数据生产 [39][41] - 针对真机数据提出“万物皆可达”，适配从遥操、示教到光冠、视觉位姿、动捕等多种采集方案 [43] - 针对仿真数据提出“万物皆可生”，从轨迹合成、资产合成、决策生成和预测生成四个维度进行统一管理 [45] - 平台引入AI Agent和大模型，用于自动标注、资源管理及模型评测，旨在构建高效的具身智能数据工具链 [47] - 平台在真实世界数据集构建上实现了30多倍的加速，在仿真方面有3.5倍的加速，以期通过飞轮效应提升模型迭代效率 [50] - 平台以数据集交付为中心，管理任务、设备、标注和用户，支持多种机器人（如星尘机器人）和遥操设备（如Open Arm机械臂、VR控制眼镜、诺亦腾动捕设备）接入 [52][56]