史上规模最庞大、最多元的真实世界操作数据集!具身领域的Scaling Law来了~
具身智能之心·2025-11-09 22:08

文章核心观点 - GEN-0是一种新型具身基础模型,专为直接基于高保真原始物理交互进行多模态训练构建,其能力随真实物理世界交互数据实现可预测的持续增长 [5][6][9] 模型架构与核心特性 - 架构继承视觉语言模型优势并实现突破,原生设计可捕捉人类级条件反射与物理常识 [5] - 核心特性"谐波推理"使模型接受同步思维与行动的无缝训练,在异步连续时序的感知与行动标记流之间建立谐波互锁 [5][6] - 架构原生支持不同机器人平台,已在6自由度、7自由度及16+自由度半人形机器人完成验证 [6] 规模化能力与扩展定律 - 在机器人领域海量数据环境中,观察到70亿参数临界点出现相变,较小模型呈现固化态势,而更大模型持续提升 [6][11] - GEN-0已扩展至100亿+参数规模,并展现出用越来越少训后数据快速适应新任务的能力 [6] - 模型展现出强扩展定律,更多预训练数据与算力持续且可预测地提升模型在多任务中的训后表现 [6][17] - 预训练数据规模与下游微调性能之间存在显著幂律关系,增加预训练数据能系统性地提升所有下游任务的模型性能 [18][20] 关键性能发现 - 70亿以上参数模型能够内化大规模机器人预训练数据,仅需数千步微调即可将知识迁移至下游任务 [15] - 60亿参数模型开始从预训练中获益,展现出强大的多任务处理能力 [15] - 10亿参数模型在预训练阶段难以消化复杂多元的感觉运动数据,模型权重随时间推移逐渐丧失吸收新信息的能力 [15] 数据规模与基础设施 - GEN-0基于超27万小时真实世界异构操控数据进行预训练 [6][22] - 数据集正以每周1万小时的速度持续扩张且不断加速,由覆盖全球的硬件网络及数千台数据采集设备与机器人共同驱动 [6][22] - 公司正在构建史上规模最庞大、最多元的真实世界操作数据集,涵盖人类能设想的所有操作任务 [24]