文章核心观点 - 具身智能的发展高度依赖高质量、多模态数据的采集与训练,这与依赖纯文本数据的大语言模型有本质区别 [1][5] - 数据已成为具身智能领域的核心生产要素和关键竞争壁垒,具有明确的经济价值,可被交易、获得补贴并成为企业融资的重要筹码 [5][9] - 北京正通过政策支持、场景开放和机制创新,系统性推动具身智能产业链发展,将整个城区打造为真实数据工厂 [5][13][17] - 行业在数据采集的技术路径上出现分化,主要围绕真机数据采集与合成数据两种路线展开,两者呈现互补趋势 [29][31] 具身智能数据采集的现状与规模 - 北京已形成多个数据采集中心,包括智源研究院、银河通用、北京人形机器人创新中心、星海图与千寻智能等,规模从三四十人到上百人不等 [4] - 千寻智能每天能采集上千条动作数据,按月形成可调用、可组合、可复用的能力库,训练效率相比过去提升近七成,新动作训练所需数据从六七百条降至不到百条 [7] - 北京人形机器人创新中心实现月均超过1万小时的动作数据采集,跻身全国采集中心第一梯队,重点关注数据质量与组织方式而非单纯总量 [8] - 星海图科技发布国内首个开放场景真机数据集Galaxea Open-World Dataset,总时长超过500小时,涵盖234种任务、1600余种物体与58类操作技能,发布一周后下载量突破8万 [18] 数据采集的场景与方法 - 数据采集场景覆盖家庭、商业与工业环境,包括1:1复刻的厨房、客厅、超市、加油站、工厂生产线等,任务涉及开冰箱、倒茶、补货、上下货等 [4][7][8] - 采集任务分为高复用性的通用动作场景和企业定制场景,后者如为家电企业采集冷柜操作流程可能需要上千小时 [8] - 基础动作由采集员完成,复杂操作由工程师佩戴VR设备远程控制,采用"自采数据、自控硬件、自测模型"的闭环体系 [6][7] - 北京亦庄的"具身智能社会实验计划"将实景场所扩展至上千个,数据池建设目标为PB(千亿字节)级,形成动态人机协同网络 [12][13][17] 政策支持与资本投入 - 北京亦庄出台专项政策,对数据采集标杆实训场给予每场所10万元奖励,对企业高质量数据集最高提供200万元资金支持,每年发放1亿元"数据券"用于补贴数据采购 [17] - 政策机制从过去补贴机器人本体转向以数据为激励对象,鼓励企业共建公共数据生态 [17] - 千寻智能自2024年初成立以来已获得近6亿元融资,投资方包括京东、小米系、宁德时代系与中东资本 [7] - 星海图完成近15亿元融资,获得美团、今日资本领投,北京机器人基金、亦庄国投跟投;银河通用在6月完成11亿元融资,创下国内具身智能赛道最大单笔融资纪录 [20][31] 数据采集的劳动力生态 - 数据采集依赖数以千计的具身智能训练师,岗位分为动作采集员、数据审核师和算法工程师三类,形成完整训练链 [22][25] - 一线采集员月薪5000-6000元,日均采集量50-200条,熟练者可达千条;审核师年薪可达8万元;核心训练师年薪15万-20万元;算法工程师月薪起薪2万元,最高可达10万元 [25] - 采集员招聘存在隐性门槛,偏好身高160-170厘米、动作协调性强、体型标准者,入职前需通过VR适应性测试,淘汰率超过50% [24] - 远程采集系统已上线,操作者可异地控制机器人完成采集任务,降低运营成本,目前已有100多台双臂机器人投入使用 [26] 技术路径的分化与探索 - 真机数据采集路线强调在真实世界中积累通用经验,如北京人形、星海图等企业通过真实场景采集构建数据配方 [8][18][29] - 合成数据路线以银河通用为代表,采用"虚实结合"范式,用10亿级合成数据进行端到端训练,仅用200条真实数据即让机器人学会抓取饮用水并泛化至不同品牌 [29][30] - 行业普遍采用仿真数据与真机数据9:1的混合比例,以平衡成本与产出,同时探索世界模型、人类在环训练等先进范式 [31] - 京东集团高级副总裁何晓冬指出,真实场景数据能影响更远的性能问题,具身智能企业应尽快让机器人参与实际工作以积累数据飞轮 [31]
机器人北京上学记
经济观察报·2025-09-21 12:57