具身数据
搜索文档
深度|行业还在争论数据路线,第一个具身数据独角兽已经跑出
Z Potentials· 2026-03-12 15:46
文章核心观点 - 具身智能行业在2025-2026年热度高涨,但行业面临一个根本性分歧:机器人训练应使用何种数据,这决定了技术能否规模化[3] - 行业在数据路线上存在“非共识”争锋,主要分为仿真合成数据、真实世界机器人数据、人类行为示范数据三条路径,导致数据体系碎片化[4][5][6] - 具身数据与仿真基础设施公司光轮智能通过构建“World–Behavior–Eval”闭环系统,而非押注单一数据路线,解决了行业底层的数据生产与系统化问题,并因此获得市场认可,成为全球首家具身数据独角兽[9][11][13][23] 一、行业现状:数据路线的分歧与体系碎片化 - 行业存在三条主要训练数据路径:仿真合成数据、真实世界机器人数据、人类行为示范数据(如第一人称视频、远程操控)[4] - 不同创业团队对数据路线的选择截然相反,例如:银河通用创始人主张“99%合成数据+1%真实数据”是终局结构,而星海图创始人则认为真实世界原生数据才是底座[4] - 数据体系呈现碎片化:数据来源不统一(仿真、真实采集、人类操控)、训练方法分裂、评测体系缺失,导致行业处于高度分散状态[5][6] - 行业真正缺失的并非某一种特定数据,而是一套能够统一不同来源和形态数据的系统[6] 二、市场信号:资本押注数据基础设施 - 光轮智能完成A++与A+++轮融资,总额达10亿元人民币,成为全球首家具身数据领域的独角兽公司[9] - 此次大规模融资表明市场正在重新理解具身智能数据规模化的底层价值,资本已为数据基础设施公司投出关键一票[7][9] 三、公司分析:光轮智能的定位与壁垒 - 公司定位为“具身数据与仿真基础设施”的构建者,而非单一数据路线的公司[11][13][23] - 公司内部判断:任何单一数据来源都不足以支撑具身智能长期发展,因此选择构建融合多源数据的闭环系统[13] - 公司已实现全球交付规模领先:是全球具身数据规模最大的企业;唯一同时覆盖仿真合成数据、人类行为数据与仿真评测体系的公司;在仿真合成数据、仿真评测、人类行为数据三个维度均为全球交付冠军;全球领先具身团队中约80%的仿真资产与合成数据来自光轮[12] - 核心壁垒在于深度理解顶级客户需求,合作方式超越传统数据公司,更接近“共同研发”,与客户共同定义数据结构、任务和评测指标[13][14] 四、技术系统:World–Behavior–Eval 闭环 - **World(仿真世界)**:自研高精度仿真内核,构建物理准确的仿真底座,具备高精度物理测量、非刚体仿真、大规模具身资产生成三大能力[16][17][25] - **Behavior(行为数据)**:构建Real2Sim数据链路,同时布局两类最具规模化潜力的数据来源[18] - 第一人称人类视频数据:规模化获取第一视角人类操作视频,用于训练并为仿真提供行为先验[18] - 仿真合成数据:利用仿真内核生成数据,覆盖真实采集难以触及的长尾场景,边际成本极低[19] - 两类数据相互校准、增强,形成双向增强循环[19] - **Eval(评测体系)**:利用校准后的仿真环境对真实数据进行系统化评测,推出RoboFinals仿真评测体系,该体系在顶级团队中承担“能力诊断系统”角色[20][21] - 三者形成自驱动闭环:仿真校准数据,数据驱动评测,评测结果指导下一轮数据采集与生成[22] 五、商业模式与市场地位 - 商业模式从传统“外包服务”逻辑升级为“平台模式”:数据成为可复用、持续增值的长期资产,形成“数据越多,仿真越准;仿真越准,生成数据越多”的商业飞轮[29] - 客户覆盖广泛且顶级:包括NVIDIA、DeepMind、字节跳动、阿里等顶尖大模型公司;Figure AI、1X Technology、智元机器人、银河通用等机器人本体厂商;Toyota、BOSCH、比亚迪、吉利等全球产业巨头;全球前五的世界模型团队均已合作[30] - 深度参与行业生态与标准制定:作为核心共建方与NVIDIA联合开源Isaac Lab-Arena基准框架;自研的LeIsaac仿真工作流被Hugging Face官方文档纳入,成为全球百万开发者的“仿真标配”[30] - 财务增长迅猛:2025年收入达到2024年的10倍;2026年第一季度预计收入已超过2025年全年[31] 六、行业趋势与公司价值 - 随着具身智能团队进入大规模训练阶段,对高质量数据和仿真环境的需求快速释放,行业正步入“数据Scaling Law”时代[26] - 围绕数据和仿真构建的基础设施层,正成为新一轮产业竞争的核心[26] - 光轮智能已累计交付数百万小时级别的具身数据,其中超过100万小时为高质量的人类第一人称视频数据[26] - 在顶级客户视角中,光轮已从数据交付方转变为训练流程中的“默认基础设施”[26] - 公司正在定义标准、共建底层、连接生态,代表着一层新的基础设施,并已率先占据了具身数据规模化浪潮中的基础设施层[27][31]
海天瑞声20251031
2025-11-03 10:36
公司概况 * 公司为海天瑞声 专注于AI数据服务[1] 财务表现与预期 * 2025年第三季度收入为7,764万元 同比增长36%[3] * 第三季度收入增速放缓至30% 主要因部分国央企项目确收延迟[7] * 全年收入增速预计与前三季度持平 保持在57%左右 全年业绩表现依然强劲[2][7] * 预计未来两到三年公司年均复合增长率能达到40%至50%[16] 战略布局与核心业务 政府与国央企合作(G类业务) * 公司与中移动等战略性股东合作 对接成都 长沙 保定等国家级数据标注基地[2][3] * 预计2025年第四季度完成成都和长沙数据集交付 总量达数百万条[2][3] * 与广西政府合作建设面向东盟国家的权威语料库 预计2026年交付东盟五国数据 收入达2000万元[2][4] * 东盟语料库类业务占三季度境内单季收入的15% 全年占比将提升至境内总收入的40%左右(约8,000万元)[4] * 公司与约十几家央企合作 包括中国移动 中国联通 中国电信等 参与国家级AI焕新社区项目[3][8] * 在地方政府数据要素产业化方向已成立7个子公司并成功交付项目[8] 传统客户与市场需求 * 传统客户为国内外科技大厂 需求集中在多语种 高端专业化及提升交互自然度的数据[2][5] * 公司已在这些领域进行布局 以满足客户对多语种语音识别 手写体 文本数据等的需求[2][5] 新兴业务拓展 * 海外内容审核业务:运营菲律宾基地(规模约1,500人) Q3贡献收入约2000万元[2][6] 该基地今年贡献收入超过7,000万元[14] * 具身智能领域:成立具身智能事业部 与机器人本体公司 科技企业及地方政府合作 提供高质量训练数据集服务[2][6] 已有国内民营科技巨头释放大量需求 预计明年中报收入达千万级别[10] * 多模态数据技术:为快手可灵等提供高端数据服务 Q3仅快手就贡献收入近1,500万元[3][11][12] 多模态数据处理需求正不断增加[13] 重要合作伙伴与项目 * 与华为合作始于升腾系 通过军团制销售算力[3][9] * 首个落地项目为陕西文旅集团"博观大模型" 验证华为提供算力 海天负责数据和算法应用的模式[3][9] * 该模式已在北京门头沟区复制(涉及2000个数字人形象) 计划推广到更多垂直领域和省份[9] 其他重要信息 * 公司认识到海外自主可控交付能力的重要性 计划扩展至印尼市场 并与当地院校合作招募专家级标注员以承接北美高端定制化业务[14][15] * Deepseek在文本处理上的创新突破提升了OCR数据需求 未来含有文字的多模态数据处理需求将会增多[13]