Workflow
本体无关:Generalist 27万小时要掀真机采集场桌子
36氪·2025-11-14 08:17

数据竞赛的关键分水岭,已不再是数据方案的路线之争,而在于是否回归到数据采集的"第一性原理":追求可复用、可扩展、可演进的规模化 数据流。那些执着于单一本体、高成本标注的传统遥操模式,不仅难以支撑Scaling Law所需的数据洪流,更在根本上背离了智能泛化的基本 逻辑。 图片来源:Generalist 27万小时是什么概念? 这一数据量远超目前公开的所有本体机器人数据集,且仍在以每周1万小时的速度增长。与此形成鲜明对比的是,一度被视为"金字塔尖"的存在的真机遥 操数据采集模式在效率上陷入了难以逾越的瓶颈,其缓慢的积累速度使其根本无法满足Scaling Laws对数据规模的指数级需求。 真机遥操数据的采集,本质上是一种受限于物理世界的线性积累过程。其典型模式是围绕特定机器人硬件,建立线下数据工场,由操作员通过遥操作真实 机器人进行任务演示。这种模式的几个内在特性,决定了其难以跟上Scaling Law的步调: 线性增长与指数需求的对立:Scaling Law揭示,模型性能随着数据规模呈幂律提升,这意味着需要数据量能持续指数级扩张。然而,真机遥操数据采集 严重依赖"堆人头"和实机运行,其增长是线性的。每一个数据点 ...