真机数据
搜索文档
深度|登顶世界第一,全球具身核心圈用脚投票,卡住行业脖子的数据难题现破局曙光
Z Potentials· 2025-10-27 12:15
导语 在具身智能迈向通用化的关键赛道上,高质量数据的匮乏,已是公认的 " 卡脖子 " 难题。谁能够突破这一瓶颈,谁就有望在下一阶段的竞争中占据先机。 近日,一个来自中国团队的具身智能开源数据集项目,在全球开发者社区中引发的现象级反响,让业界看到破局的曙光。 Z Potentials独家获悉,星海图于今年 8 月开源的开放世界数据集(Galaxea Open-World Dataset)在短短两个月内已在 Hugging Face 与魔搭社区累获得 超 40 万次下载。 美国明星具身智能创业公司 Physical Intelligence 的工程师在社交媒体上公开为 Galaxea 点赞,对其开源高达 500 小时的开放场景移动操作数据给予了高 度评价,称这无疑是一份极具价值的社区资源。 40 万这个数字意味着,在全球具身智能的核心开发者圈子里,已接近人手一份。需要注意的是, " 开发者 " 是一个广义概念,可以用三层金字塔来理解 : 塔尖是顶尖大学与实验室的核心研究者,中间层是大型企业的研发团队,第三层则是面向万千场景、直接推动落地的应用开发者。 在任何新兴行业的早期 阶段,这一群体往往最具技术前瞻性,同时也 ...
机器人北京上学记
经济观察报· 2025-09-21 12:57
文章核心观点 - 具身智能的发展高度依赖高质量、多模态数据的采集与训练,这与依赖纯文本数据的大语言模型有本质区别 [1][5] - 数据已成为具身智能领域的核心生产要素和关键竞争壁垒,具有明确的经济价值,可被交易、获得补贴并成为企业融资的重要筹码 [5][9] - 北京正通过政策支持、场景开放和机制创新,系统性推动具身智能产业链发展,将整个城区打造为真实数据工厂 [5][13][17] - 行业在数据采集的技术路径上出现分化,主要围绕真机数据采集与合成数据两种路线展开,两者呈现互补趋势 [29][31] 具身智能数据采集的现状与规模 - 北京已形成多个数据采集中心,包括智源研究院、银河通用、北京人形机器人创新中心、星海图与千寻智能等,规模从三四十人到上百人不等 [4] - 千寻智能每天能采集上千条动作数据,按月形成可调用、可组合、可复用的能力库,训练效率相比过去提升近七成,新动作训练所需数据从六七百条降至不到百条 [7] - 北京人形机器人创新中心实现月均超过1万小时的动作数据采集,跻身全国采集中心第一梯队,重点关注数据质量与组织方式而非单纯总量 [8] - 星海图科技发布国内首个开放场景真机数据集Galaxea Open-World Dataset,总时长超过500小时,涵盖234种任务、1600余种物体与58类操作技能,发布一周后下载量突破8万 [18] 数据采集的场景与方法 - 数据采集场景覆盖家庭、商业与工业环境,包括1:1复刻的厨房、客厅、超市、加油站、工厂生产线等,任务涉及开冰箱、倒茶、补货、上下货等 [4][7][8] - 采集任务分为高复用性的通用动作场景和企业定制场景,后者如为家电企业采集冷柜操作流程可能需要上千小时 [8] - 基础动作由采集员完成,复杂操作由工程师佩戴VR设备远程控制,采用"自采数据、自控硬件、自测模型"的闭环体系 [6][7] - 北京亦庄的"具身智能社会实验计划"将实景场所扩展至上千个,数据池建设目标为PB(千亿字节)级,形成动态人机协同网络 [12][13][17] 政策支持与资本投入 - 北京亦庄出台专项政策,对数据采集标杆实训场给予每场所10万元奖励,对企业高质量数据集最高提供200万元资金支持,每年发放1亿元"数据券"用于补贴数据采购 [17] - 政策机制从过去补贴机器人本体转向以数据为激励对象,鼓励企业共建公共数据生态 [17] - 千寻智能自2024年初成立以来已获得近6亿元融资,投资方包括京东、小米系、宁德时代系与中东资本 [7] - 星海图完成近15亿元融资,获得美团、今日资本领投,北京机器人基金、亦庄国投跟投;银河通用在6月完成11亿元融资,创下国内具身智能赛道最大单笔融资纪录 [20][31] 数据采集的劳动力生态 - 数据采集依赖数以千计的具身智能训练师,岗位分为动作采集员、数据审核师和算法工程师三类,形成完整训练链 [22][25] - 一线采集员月薪5000-6000元,日均采集量50-200条,熟练者可达千条;审核师年薪可达8万元;核心训练师年薪15万-20万元;算法工程师月薪起薪2万元,最高可达10万元 [25] - 采集员招聘存在隐性门槛,偏好身高160-170厘米、动作协调性强、体型标准者,入职前需通过VR适应性测试,淘汰率超过50% [24] - 远程采集系统已上线,操作者可异地控制机器人完成采集任务,降低运营成本,目前已有100多台双臂机器人投入使用 [26] 技术路径的分化与探索 - 真机数据采集路线强调在真实世界中积累通用经验,如北京人形、星海图等企业通过真实场景采集构建数据配方 [8][18][29] - 合成数据路线以银河通用为代表,采用"虚实结合"范式,用10亿级合成数据进行端到端训练,仅用200条真实数据即让机器人学会抓取饮用水并泛化至不同品牌 [29][30] - 行业普遍采用仿真数据与真机数据9:1的混合比例,以平衡成本与产出,同时探索世界模型、人类在环训练等先进范式 [31] - 京东集团高级副总裁何晓冬指出,真实场景数据能影响更远的性能问题,具身智能企业应尽快让机器人参与实际工作以积累数据飞轮 [31]
机器人北京上学记
经济观察网· 2025-09-21 11:37
具身智能数据采集布局 - 北京多家企业与机构布局数据采集中心 包括智源研究院 银河通用 北京人形机器人创新中心 星海图与千寻智能等 规模从三四十人到上百人不等[3] - 千寻智能将整层空间改造成数据工厂 配备机械臂和实时监控系统 每天能采集上千条动作数据 按月形成可调用能力库[5][6] - 北京人形机器人创新中心1:1复刻厨房 卧室 加油站等场景 月均采集超过上万小时动作数据 跻身全国第一梯队[3][7][8] 数据采集技术方法 - 基础动作由采集员完成 复杂操作由工程师佩戴VR设备远程控制 千寻智能训练效率提升近七成 新动作训练从需六七百条数据降至不到百条[6] - 采集任务分为高复用性通用动作场景和企业定制场景 某品牌冷柜标准作业流程采集需上千小时[7] - 星海图科技发布国内首个开放场景真机数据集GalaxeaOpen-WorldDataset 来自50个真实场景 总时长超500小时 涵盖234种任务 发布一周下载量突破8万[18] 资本投入与政策支持 - 千寻智能2024年初成立以来获得近6亿元融资 投资方包括京东 小米系 宁德时代系与中东资本[6] - 星海图完成近15亿元融资 获得美团 今日资本领投 北京机器人基金 亦庄国投跟投[20] - 北京亦庄出台政策对数据采集标杆实训场给予每场所10万元奖励 高质量数据集最高支持200万元 每年发放1亿元"数据券" 单个采购主体年度最高补贴不超过100万元[18] 数据采集人才体系 - 具身智能训练师分为动作采集员 数据审核师和算法工程师三类 采集员日均采集50至200条 熟练者达千条 审核师日审核上千条[22] - 采集岗月薪5000-6000元 审核岗年薪达8万元 核心训练师年薪15万-20万元 算法工程师月薪起薪2万元 最高可达10万元[22] - 采集员入职前需通过VR适应性测试 淘汰率超50% 招聘偏好身高160-170厘米 动作协调 体型标准者[21] 技术路线分化 - 真机数据采集与合成数据两种技术路线并行 银河通用采用"虚实结合"范式 用10亿级合成数据训练 仅用200条真实数据让机器人学会抓取饮用水并泛化到不同品牌[26] - 行业普遍使用仿真数据与真机数据比例约为9:1 北京人形同步构建高保真合成数据 人类视频数据等多元体系[28] - 京东集团高级副总裁何晓冬认为真机采集与合成模拟是互补组合 具身智能企业应尽快让机器人走进现实世界参与工作[28] 应用场景拓展 - 北京亦庄开展"具身智能社会实验计划" 在药房 图书馆 酒店等近百个真实采集点位构建人机协同网络 计划扩展至上千个实景场所[12][17] - 七鲜超市进行补货训练 每天采集20多个微任务 人流密集对采集作业产生干扰但环境还原度最高[14][15] - 北京人形打造国内首个基于真实场景的具身智能训练平台 计划年底前完成20余个真实场景布局 承担采集员培训与认证职能[20]
WAIC观察|仿真不稳、真机太贵?机器人数据最优解出现了吗
第一财经· 2025-07-28 10:07
机器人训练数据路径争议 - Physical Intelligence联合创始人Sergey Levine主张真实世界数据对机器人训练不可或缺 挑战业界用仿真数据替代真机的做法 [1] - 行业面临关键选择:优先依赖低成本快速的仿真数据 或回归真实环境积累高质量真机数据 [1] 仿真数据优先派观点 - 银河通用采用Sim2Real路径 主要依靠合成仿真数据 主张在零真实数据情况下启动训练 [2] - 通过"摇操"采集真人动作数据对创业公司成本高昂 [2] 真实数据优先派观点 - 擎朗智能CEO李通强调需将机器人部署到实际岗位 通过真实任务积累有效数据 [3] - 机器人需在明确岗位达到万级部署量才能积累对模型有效的数据 非百台级别能解决 [3] - 服务业场景底层"动作元素"(抓取、递送、避障等)可泛化 但需足够丰富真实数据支撑 [3] 数据融合技术挑战 - 灵初智能指出仿真和真机数据不能简单混合使用 模型会识别数据来源并分配不同权重 [9] - 灵初方案:仿真用于大规模预训练 少量真机数据完成最终微调 [9] - 北京人形机器人创新中心仿真与真实数据使用比例为7:3 [9] - 国家地方共建人形机器人创新中心真实数据与仿真数据占比为3:1 [9] 真实数据的不可替代性 - 智元机器人100%使用真机数据训练多模态大模型和VLA模型 [10][12] - 自变量机器人COO杨倩指出仿真在"下半身"训练(步态规划等)占主流 但"上半身"精细操作仿真能力有限 [10] - 长链条柔性交互任务(如制作香囊)仿真工程开销巨大 甚至不可完成 [10] - 自变量机器人采用端到端真实数据采集 一周内完成机器人完整制作任务训练调优 [12] 行业实践与投入 - 智元机器人自建专业数采工厂 形成全球最大数据集AgiBot World并开源 [12] - 发布行业首个通用具身基座模型启元大模型 具备"一脑多形"适配能力 [12] - 自变量机器人处于PoC阶段 与酒店、养老等行业联合测试非结构化环境部署能力 [10] 行业现状共识 - 真实和仿真数据孰优孰劣尚无定论 尚未有企业通过单一数据路径跑出通用智能完全体 [4] - 具身智能处于落地早期阶段 高昂的真实数据采集成本是行业必须面对的代价 [10]