真机数据 - 财报，业绩电话会，研报，新闻

真机数据

搜索文档

机器人大讲堂· 2026-03-17 19:56

文章核心观点 - 2026年是人形机器人量产与具身智能数据规模化的关键元年行业发展的核心矛盾已从“本体与小脑”转向“大脑”即决策与认知能力的不足而高质量真机数据是突破此瓶颈、驱动大脑进化的关键燃料 [1][4] - 为解决高质量操作数据匮乏的行业痛点中国由国家级平台牵头联合产学研核心机构启动了首个具身智能开源数据集社区旨在通过建立统一的数据治理框架和流通生态从基础设施层面加速产业规模化 [6][7][9] - 数据生态的构建特别是开源数据社区的建设将成为定义人形机器人产业下一阶段竞争规则的关键其战略意义在于为中国产业在全球竞争中构建以数据生态为护城河的系统性优势 [18][19][21] 行业现状与核心矛盾 - 运动控制技术（小脑）已趋于成熟机器人已具备行走、跳跃、抓取等高难度预设动作能力 [4] - 产业规模化应用的主要瓶颈在于“大脑” 即机器人理解任务、规划决策和应对环境变化的认知能力不足 [4] - 全球开源具身数据集累计时长严重不足 2025年上半年不足1000小时高质量操作数据匮乏制约技术进步 [5] 真机数据的战略价值 - 在模型训练中真机数据相比合成数据与UMI遥操作数据能提供不可替代的真实物理交互细节并有效缩小Sim2Real（仿真到现实）差距 [5] - 真机数据特别是多机协同采集的数据具备高度时空一致性能降低模型训练冗余提升训练效率 [5] - 真机数据是驱动大脑进化、实现模型在真实场景中有效落地的“高能量密度燃料” 在落地关键阶段具有不可替代的核心地位 [5][6] 国家级数据基础设施的构建 - 2026年3月16日由工信部指导的开放原子开源基金会牵头联合中国信通院、上海人工智能实验室、百度、乐聚机器人等十余家机构宣布启动国内首个具身智能开源数据集社区 [6] - 该国家级平台的核心作用是提供市场机制建立统一的数据治理框架、权威的质量评估标准和可信的数据流通机制而非直接售卖数据 [7] - 开源数据集社区专注于三大任务：制定数据集开源治理框架、建立行业质量评估标准、推动数据资源在产学研间的规范流通与共享旨在解决标准不统一、质量参差不齐、开放共享难三大痛点 [9] 关键参与企业的战略布局 - **乐聚机器人**：作为社区的牵头建设单位其优势在于拥有国内规模最大的真机数据采集网络在全国14个训练场中独立建设9个其中北京训练场为全国最大单体训练场基于此网络乐聚年产真机数据达2500万条累计交付20000小时 [12] - **乐聚机器人**：其LET数据集系列全平台总下载量突破100万次登顶全网开源具身数据下载榜榜首并已基于数据驱动实现了工业场景的规模化技能交付 [14] - **乐聚机器人**：在会议上全球首发了OpenLET触觉灵巧操作+全身运动数据集该数据集融合了触觉灵巧操作与全身高动态运动包含指尖压力矩阵、六维腕部力传感器（精度±0.5%）、RGB-D视觉及41个关节控制信号填补了行业空白 [14] - **企业参与逻辑**：对于乐聚牵头建设是从数据供给方向行业数据生态主导构建者的战略升维对于宇树、蚂蚁灵波等参与方则是通过获取高质量真机数据支撑本体模型训练同时以自身能力反哺社区生态的双向投资 [15][17][20] 社区目标与产业飞轮效应 - 社区发布三大建设目标：建设开放数据平台并提供一站式工具链；构建数据交易生态联动数据交易平台；通过举办赛事、孵化团队加速技术与产业融合 [17] - 三大目标旨在构建一个能持续自我强化的产业飞轮：高质量数据降低研发门槛吸引开发者开发者丰富应用场景反哺数据多样性与质量数据质量提升驱动模型突破并带动产业落地落地案例进一步验证价值并扩大社区吸引力 [17] - 该飞轮的转动意味着具身智能数据从企业私有走向开源共享的临界点可能加速到来 [18] 未来竞争格局展望 - 2026年及以后具身智能的竞争将是算法能力、本体硬件、场景资源、数据积累四维度的综合竞争 [19] - 在小脑（运动控制）趋于成熟的当下竞争差距将主要取决于数据层面的较量 [19] - 未来的主战场在于构建高效、可信、有生命力的数据生态而非单纯的私有数据积累开源生态建设代表增量竞争和产业号召力 [19] - 国家级平台牵头建设开源数据社区是为中国具身智能产业构建以数据生态为护城河的系统性优势将决定产业下一阶段的竞争规则 [19][21]

具身智能

真机数据

机器人

OpenLET触觉灵巧操作+全身运动数据集

具身智能

真机数据

机器人

OpenLET触觉灵巧操作+全身运动数据集

深度｜登顶世界第一，全球具身核心圈用脚投票，卡住行业脖子的数据难题现破局曙光

Z Potentials· 2025-10-27 12:15

文章核心观点 - 高质量真机数据是当前具身智能行业发展的关键瓶颈，突破此瓶颈的团队有望在竞争中占据先机[1] - 星海图公司开源的Galaxea开放世界数据集在短期内获得超40万次下载，在全球核心开发者群体中获得广泛认可，显示出其在解决数据瓶颈问题上的潜力[2][6][8] - 在算力和算法差距不大的背景下，数据的规模、多样性与真实性是构建具身智能竞争护城河的核心要素[13] 数据集的市场反响与技术优势 - Galaxea Open-World Dataset上线两个月下载量超过40万次，在全球数十万核心开发者群体中接近普及，下载量远超BridgeData、RT-1等其他知名机器人数据集[2][8][11] - 数据集包含超过10万条移动操作数据、500小时开放场景数据，覆盖50个真实环境、150类任务、1600种操作对象及58项具身技能，提供了算法复现与模型训练的统一基准[4][8][12] - 该数据集提供了更完整的机器人构型与更复杂的任务，有助于模型在现实环境中实现更好的泛化能力[12] 数据在具身智能竞争中的战略地位 - 数据是拉开竞争差距的关键因素，高质量真机数据已成为构建竞争护城河的重要资产[13] - 互联网数据与仿真数据存在局限性：互联网视频缺乏可结构化的物理信息和可重复性控制；仿真数据则面临真实性不足和仿真到现实的迁移困难问题[14] - 真机数据采集虽成本高昂，但数据阶段多投入资源可显著降低后续模型训练成本，在中国市场其成本比例约为1:10，从整体投资回报率看具有经济合理性[15] 高质量真机数据集的构建要素 - 构建高质量数据集依赖三大核心要素：硬件是可靠的“身体”，需要精准感知和稳定执行；场景是多样的“土壤”，需覆盖真实世界的复杂性；工程化能力是将原始数据转化为可用资产的系统[17] - 星海图的R1 Lite机器人具备双臂协同、多自由度操作和高精度视觉感知能力，可覆盖80%以上的生产力场景，其硬件已被Physical Intelligence、斯坦福大学等顶尖用户采用[17][18] - 数据集覆盖酒店、餐厅、超市等真实动态环境，其工程化数据管线（EDP平台）实现了从采集到部署的全流程精细化管理，复杂程度不亚于自动驾驶系统[20][22] 行业发展趋势与公司战略 - 星海图选择“真机采集”这一高门槛路径，旨在构建数据、硬件、算法及生态闭环的系统性壁垒[24] - 真机采集是硬件、算法与工程运营深度耦合的系统工程，公司通过此路径构建起以硬件为本、数据驱动模型训练的闭环，在强调长期主义的机器人赛道中建立壁垒[26]

具身智能

真机数据

机器人

Galaxea Open-World Dataset

Galaxea Open-World Dataset

星海图R1 Lite机器人

机器人北京上学记

经济观察报· 2025-09-21 12:57

文章核心观点 - 具身智能的发展高度依赖高质量、多模态数据的采集与训练，这与依赖纯文本数据的大语言模型有本质区别 [1][5] - 数据已成为具身智能领域的核心生产要素和关键竞争壁垒，具有明确的经济价值，可被交易、获得补贴并成为企业融资的重要筹码 [5][9] - 北京正通过政策支持、场景开放和机制创新，系统性推动具身智能产业链发展，将整个城区打造为真实数据工厂 [5][13][17] - 行业在数据采集的技术路径上出现分化，主要围绕真机数据采集与合成数据两种路线展开，两者呈现互补趋势 [29][31] 具身智能数据采集的现状与规模 - 北京已形成多个数据采集中心，包括智源研究院、银河通用、北京人形机器人创新中心、星海图与千寻智能等，规模从三四十人到上百人不等 [4] - 千寻智能每天能采集上千条动作数据，按月形成可调用、可组合、可复用的能力库，训练效率相比过去提升近七成，新动作训练所需数据从六七百条降至不到百条 [7] - 北京人形机器人创新中心实现月均超过1万小时的动作数据采集，跻身全国采集中心第一梯队，重点关注数据质量与组织方式而非单纯总量 [8] - 星海图科技发布国内首个开放场景真机数据集Galaxea Open-World Dataset，总时长超过500小时，涵盖234种任务、1600余种物体与58类操作技能，发布一周后下载量突破8万 [18] 数据采集的场景与方法 - 数据采集场景覆盖家庭、商业与工业环境，包括1:1复刻的厨房、客厅、超市、加油站、工厂生产线等，任务涉及开冰箱、倒茶、补货、上下货等 [4][7][8] - 采集任务分为高复用性的通用动作场景和企业定制场景，后者如为家电企业采集冷柜操作流程可能需要上千小时 [8] - 基础动作由采集员完成，复杂操作由工程师佩戴VR设备远程控制，采用"自采数据、自控硬件、自测模型"的闭环体系 [6][7] - 北京亦庄的"具身智能社会实验计划"将实景场所扩展至上千个，数据池建设目标为PB（千亿字节）级，形成动态人机协同网络 [12][13][17] 政策支持与资本投入 - 北京亦庄出台专项政策，对数据采集标杆实训场给予每场所10万元奖励，对企业高质量数据集最高提供200万元资金支持，每年发放1亿元"数据券"用于补贴数据采购 [17] - 政策机制从过去补贴机器人本体转向以数据为激励对象，鼓励企业共建公共数据生态 [17] - 千寻智能自2024年初成立以来已获得近6亿元融资，投资方包括京东、小米系、宁德时代系与中东资本 [7] - 星海图完成近15亿元融资，获得美团、今日资本领投，北京机器人基金、亦庄国投跟投；银河通用在6月完成11亿元融资，创下国内具身智能赛道最大单笔融资纪录 [20][31] 数据采集的劳动力生态 - 数据采集依赖数以千计的具身智能训练师，岗位分为动作采集员、数据审核师和算法工程师三类，形成完整训练链 [22][25] - 一线采集员月薪5000-6000元，日均采集量50-200条，熟练者可达千条；审核师年薪可达8万元；核心训练师年薪15万-20万元；算法工程师月薪起薪2万元，最高可达10万元 [25] - 采集员招聘存在隐性门槛，偏好身高160-170厘米、动作协调性强、体型标准者，入职前需通过VR适应性测试，淘汰率超过50% [24] - 远程采集系统已上线，操作者可异地控制机器人完成采集任务，降低运营成本，目前已有100多台双臂机器人投入使用 [26] 技术路径的分化与探索 - 真机数据采集路线强调在真实世界中积累通用经验，如北京人形、星海图等企业通过真实场景采集构建数据配方 [8][18][29] - 合成数据路线以银河通用为代表，采用"虚实结合"范式，用10亿级合成数据进行端到端训练，仅用200条真实数据即让机器人学会抓取饮用水并泛化至不同品牌 [29][30] - 行业普遍采用仿真数据与真机数据9:1的混合比例，以平衡成本与产出，同时探索世界模型、人类在环训练等先进范式 [31] - 京东集团高级副总裁何晓冬指出，真实场景数据能影响更远的性能问题，具身智能企业应尽快让机器人参与实际工作以积累数据飞轮 [31]

经济观察网· 2025-09-21 11:37

具身智能数据采集布局 - 北京多家企业与机构布局数据采集中心包括智源研究院银河通用北京人形机器人创新中心星海图与千寻智能等规模从三四十人到上百人不等[3] - 千寻智能将整层空间改造成数据工厂配备机械臂和实时监控系统每天能采集上千条动作数据按月形成可调用能力库[5][6] - 北京人形机器人创新中心1:1复刻厨房卧室加油站等场景月均采集超过上万小时动作数据跻身全国第一梯队[3][7][8] 数据采集技术方法 - 基础动作由采集员完成复杂操作由工程师佩戴VR设备远程控制千寻智能训练效率提升近七成新动作训练从需六七百条数据降至不到百条[6] - 采集任务分为高复用性通用动作场景和企业定制场景某品牌冷柜标准作业流程采集需上千小时[7] - 星海图科技发布国内首个开放场景真机数据集GalaxeaOpen-WorldDataset 来自50个真实场景总时长超500小时涵盖234种任务发布一周下载量突破8万[18] 资本投入与政策支持 - 千寻智能2024年初成立以来获得近6亿元融资投资方包括京东小米系宁德时代系与中东资本[6] - 星海图完成近15亿元融资获得美团今日资本领投北京机器人基金亦庄国投跟投[20] - 北京亦庄出台政策对数据采集标杆实训场给予每场所10万元奖励高质量数据集最高支持200万元每年发放1亿元"数据券" 单个采购主体年度最高补贴不超过100万元[18] 数据采集人才体系 - 具身智能训练师分为动作采集员数据审核师和算法工程师三类采集员日均采集50至200条熟练者达千条审核师日审核上千条[22] - 采集岗月薪5000-6000元审核岗年薪达8万元核心训练师年薪15万-20万元算法工程师月薪起薪2万元最高可达10万元[22] - 采集员入职前需通过VR适应性测试淘汰率超50% 招聘偏好身高160-170厘米动作协调体型标准者[21] 技术路线分化 - 真机数据采集与合成数据两种技术路线并行银河通用采用"虚实结合"范式用10亿级合成数据训练仅用200条真实数据让机器人学会抓取饮用水并泛化到不同品牌[26] - 行业普遍使用仿真数据与真机数据比例约为9:1 北京人形同步构建高保真合成数据人类视频数据等多元体系[28] - 京东集团高级副总裁何晓冬认为真机采集与合成模拟是互补组合具身智能企业应尽快让机器人走进现实世界参与工作[28] 应用场景拓展 - 北京亦庄开展"具身智能社会实验计划" 在药房图书馆酒店等近百个真实采集点位构建人机协同网络计划扩展至上千个实景场所[12][17] - 七鲜超市进行补货训练每天采集20多个微任务人流密集对采集作业产生干扰但环境还原度最高[14][15] - 北京人形打造国内首个基于真实场景的具身智能训练平台计划年底前完成20余个真实场景布局承担采集员培训与认证职能[20]

GalaxeaOpen - WorldDataset

GalaxeaOpen - WorldDataset

WAIC观察｜仿真不稳、真机太贵？机器人数据最优解出现了吗

第一财经· 2025-07-28 10:07

机器人训练数据路径争议 - Physical Intelligence联合创始人Sergey Levine主张真实世界数据对机器人训练不可或缺挑战业界用仿真数据替代真机的做法 [1] - 行业面临关键选择：优先依赖低成本快速的仿真数据或回归真实环境积累高质量真机数据 [1] 仿真数据优先派观点 - 银河通用采用Sim2Real路径主要依靠合成仿真数据主张在零真实数据情况下启动训练 [2] - 通过"摇操"采集真人动作数据对创业公司成本高昂 [2] 真实数据优先派观点 - 擎朗智能CEO李通强调需将机器人部署到实际岗位通过真实任务积累有效数据 [3] - 机器人需在明确岗位达到万级部署量才能积累对模型有效的数据非百台级别能解决 [3] - 服务业场景底层"动作元素"（抓取、递送、避障等）可泛化但需足够丰富真实数据支撑 [3] 数据融合技术挑战 - 灵初智能指出仿真和真机数据不能简单混合使用模型会识别数据来源并分配不同权重 [9] - 灵初方案：仿真用于大规模预训练少量真机数据完成最终微调 [9] - 北京人形机器人创新中心仿真与真实数据使用比例为7:3 [9] - 国家地方共建人形机器人创新中心真实数据与仿真数据占比为3:1 [9] 真实数据的不可替代性 - 智元机器人100%使用真机数据训练多模态大模型和VLA模型 [10][12] - 自变量机器人COO杨倩指出仿真在"下半身"训练（步态规划等）占主流但"上半身"精细操作仿真能力有限 [10] - 长链条柔性交互任务（如制作香囊）仿真工程开销巨大甚至不可完成 [10] - 自变量机器人采用端到端真实数据采集一周内完成机器人完整制作任务训练调优 [12] 行业实践与投入 - 智元机器人自建专业数采工厂形成全球最大数据集AgiBot World并开源 [12] - 发布行业首个通用具身基座模型启元大模型具备"一脑多形"适配能力 [12] - 自变量机器人处于PoC阶段与酒店、养老等行业联合测试非结构化环境部署能力 [10] 行业现状共识 - 真实和仿真数据孰优孰劣尚无定论尚未有企业通过单一数据路径跑出通用智能完全体 [4] - 具身智能处于落地早期阶段高昂的真实数据采集成本是行业必须面对的代价 [10]