高阶人力+算力+数据
搜索文档
深度|Mercor之后,硅谷下一个百亿美金的数据平台独角兽会是谁?
Z Potentials· 2025-12-08 10:43
文章核心观点 - AI数据基础设施的演进正经历范式转移,从解决标准化数据规模(Scale AI),到系统化供给高阶智力数据(Mercor),如今正迈向为世界模型和具身智能提供规模化“物理经验数据”的第三代平台 [2][8][9] - 初创公司Lightwheel被视为该领域的“黑马”,它从垂直的仿真数据源切入,通过“AI+高保真仿真”的自动化生产范式,致力于成为世界模型时代的底层数据基础设施 [11][12][20] - Lightwheel通过提供“本体无关”的仿真与第一视角人类行为数据,并与头部AI公司形成共生结构,正从数据供应商演变为嵌入研发体系的“数据调度中枢”,有望成为下一代关键的生产力底座 [16][18][19][21] 硅谷数据基础设施的演进与格局 - 每一轮AI技术范式迁移(如CV到LLM)都会在数据层沉淀出基础设施级的巨大机会 [2] - Scale AI通过“平台+标注工具+交付体系”的工业化流水线模式,解决了海量标准化数据的标注难题,并成为AI训练数据基础设施平台,后被Meta以约148亿美元收购其49%股份 [3][4] - Mercor精准锚定了对高端、复杂、依赖专业智力的任务需求这一利基市场,通过平台化汇聚全球超过30000名各领域专家,将高阶人力转化为可规模化调度的标准化服务,实现了从人才平台到“智能生产力基础设施”的跃迁 [5][7] - Mercor在新一轮融资中估值突破100亿美元,是其转型前估值的五倍,并已实现5亿美元($500M)的年度经常性收入(ARR),服务OpenAI、Meta、Google DeepMind等顶级客户 [1][7] - 随着竞争核心从数据规模转向质量与多元性,下一代AI基础设施的关键在于能否规模化解决高质量、专业化数据的持续供给问题 [4] 世界模型时代催生第三代数据平台 - 多模态模型的终极目标是构建“世界模型”,这需要AI构建对物理现实进行感知、推理与模拟的新认知范式,而不再依赖对语言符号的概率预测 [8] - 下一代数据平台的服务对象正从服务语言模型的“文本大脑”转向服务世界模型的“认知大脑”,数据角色转变为支撑机器理解物理世界的底层燃料 [10] - 第三代数据平台将演化为通过标准化工具链与自动化流程,为构建世界模型持续提供规模化、结构化“物理经验燃料”的基础设施,其本质是一个可编程、可扩展的“世界模拟练兵场” [10] - 为世界模型提供燃料的数据革命无法依靠传统“人力堆砌”,必须转向“AI+高保真仿真”驱动的自动化生产范式,由算法在虚拟世界中完成大规模闭环迭代 [11] - 一批新公司(如Lightwheel, MaxInsight, Xdof, Mecka)正从仿真环境、合成数据等切口切入,致力于解决如何规模化生产“物理经验数据”这一核心命题 [11] Lightwheel的战略定位与业务进展 - Lightwheel选择从最垂直、最重的仿真数据源起步,目标是通过仿真、AI Agents等技术体系,系统性放大人力资产的产出效率,而非简单替代人力做数据 [12] - 公司定位为“世界模型的数据供应商”,其数据体系已被英伟达、DeepMind、Figure、Hugging Face等世界模型与具身智能核心玩家采用 [13] - 与英伟达的合作贯穿全链路:为GR00T等机器人基础模型提供合成数据;为Omniverse与Isaac Sim提供高保真“SimReady”仿真资产 [13] - 英伟达高管黄敏珊指出,合成数据未来将占据数据总量绝大部分,并将电缆仿真定义为机器人学习的“圣杯”级难题,Lightwheel是英伟达解决该问题的关键合作伙伴 [15] - Lightwheel的数据在硅谷世界模型阵营中被反复复用,成为不同模型和系统共同选择的“公共底座”或“基础设施级选项” [15] Lightwheel的数据产品与技术优势 - 数据形态从仿真数据扩展到第一视角(Egocentric)的人类行为数据,用于刻画人在真实世界中的复杂操作与决策路径 [15] - 其构建的Lightwheel EgoSuite解决方案,可实现工业级的以人为中心的数据采集和结构化 [15] - 核心战略是坚持“本体无关性”:不绑定具体机器人形态、传感器架构或单一客户,这使得其数据的规模化效率与复用价值是传统本体相关数据的数十倍 [16] - 已累计交付百万小时级别的“本体无关数据”,其中包含30万小时的人类数据,处于业内第一梯队水平 [16] - 在硅谷具身智能与世界模型生态中,其SimReady资产的市占率已超过80%,且比例仍在上升 [16] Lightwheel的生态位与增长飞轮 - 与头部世界模型公司形成了高度绑定的共生结构(A/B面):A面为其提供数据燃料;B面又采购对方的云算力、基础模型等能力来放大自身生产效率 [18] - 其自身的仿真系统、AI Agents与世界模型训练过程形成了一个内生自强化的数据飞轮:模型越复杂,对仿真数据需求越高;仿真越逼真,模型理解越深,进而推高对更高阶数据的需求 [19] - 角色从“数据提供方”演变为嵌入研发体系的“数据调度中枢”,决定物理经验的生产、交互路径的复现和场景的标准化调用 [19] - 与客户共同构成“数据×模型×算力”飞轮结构,使得公司逐渐沉入整个世界模型研发体系的底层运转结构之中 [20] - 所卡位的机会窗口从Mercor对应的LLM时代,切换到了物理AI与世界模型时代,瞄准成为世界模型时代的底层数据基础设施 [20]