文章核心观点 - 通用机器人需要颠覆“出厂即巅峰”的传统电子产品设定,成为能在真实部署中持续学习和进化的生命体[2][3] - 智元具身研究中心提出的SOP框架是一种颠覆性的机器人学习新范式,通过构建“多机平行现实”与“云端集中进化”的闭环,实现了机器人在真实世界中的分布式持续学习[4][6][13] - SOP框架通过在线、集群、并行的集团军作战模式,解决了传统机器人后训练离线、单机、顺序的瓶颈,让智能进化不再止步于出厂时刻[9][10][13] 行业痛点与范式转变 - 当前具身智能面临尴尬真相:基于互联网数据预训练的模型是“理论巨人”,一旦进入充满未知的物理世界,常因环境变化(分布偏移)而束手无策[2] - 传统机器人后训练是一条离线、单机、顺序的漫漫长路,导致机器人探索慢、迭代慢,且容易在学习新任务时遗忘旧能力[9] - 通用机器人的出路不应是“静态标品”,而应是能在真实部署中、在每一次失败和纠正中持续变强的生命体[3] - SOP框架改变了整个通用机器人系统的生命周期,部署不再是技术迭代的终点,而是更大规模学习的起点[43][44] SOP框架技术原理 - SOP即可扩展在线后训练,是业界首次在物理世界的后训练中深度整合在线、分布式和多任务机制[6] - 框架将VLA模型的后训练从“单机单打独斗”转变为“在线、集群、并行”的集团军作战,构建“多机平行现实→云端集中学习→模型即时回流”的超级闭环[13] - 多台机器人组成集群共享同一VLA策略,在同一时间开启多个“平行现实”,大幅拓宽真实世界中状态-动作分布的覆盖面,避开单机学习的局部瓶颈[14][17] - 系统采用Actor-Learner分离架构,通过消息队列解耦数据生产与消费,具备“零配置”的弹性水平扩展能力,新机器人可即插即用[20] - 内置动态采样器,能根据任务实时训练损失自动加大对当前薄弱环节的在线数据训练权重,实现群体智能的实时同步[23] - 通过多任务并行学习,巧妙化解了传统单机在线训练面临的灾难性遗忘矛盾,确保了VLA的通用性不会因针对某一任务的性能提升而受损[24] 实验验证与性能表现 - 实验基于智元精灵G1机器人平台进行,该机器人拥有双臂14个自由度,配备“三目”RGB视觉系统,具备执行精细微操的硬件基础[26] - 在极具挑战性的任务中(如杂货补货涉及500多种商品、叠柔软衣物、协同开冰柜门),SOP结合在线多机方案全面碾压了传统单机或离线方法[29][31] - 在叠衣服和组装纸盒的长程评估中,SOP系统实现了超过36小时的连续运行且无性能衰减[34] - 在叠衣服任务中,SOP将系统吞吐量直接翻倍,从每小时21件提升至45件[34] - 扩展性实验显示清晰的Scaling Law:随着分布式集群规模扩大,模型性能呈近乎线性增长[35] - 在3小时总训练时长限制下,四机并行学习的最终成功率达到92.5%,比单机提升12个百分点[36][37] - 要达到80%性能基准线,单机需174分钟,四机仅需72分钟,训练速度达到原来的2.4倍[36][37] - 训练成本优势显著:当预训练数据从80小时增至160小时,仅带来4%的性能提升;而SOP仅用3小时在轨经验,就换来了约30%的性能提升[41] - 最终性能上限仍被预训练模型的初始规模所锚定,在线学习是既有知识的超级优化器,而非大规模预训练的完全替代品[41] 产业影响与未来展望 - SOP范式转变意味着机器人可以带着尚不完美的初始模型上线,极大地降低了产业落地门槛[44] - 部署就是通往完美之路,机器人的每一次任务执行、每一次失败后的纠正都能转化为宝贵的训练数据[44] - 随着更多机器人走入真实世界,分布式集群规模将呈指数级增长,将见证前所未有的群体智能增长速度[45] - SOP让众多机器人的经验共同驱动智能快速成长,是通用机器人走向大规模真实世界部署的关键一步[47]
刚刚,智元提出SOP,让VLA模型在真实世界实现可扩展的在线进化
机器之心·2026-01-06 17:38