分布式RL
搜索文档
只用512张H200,106B模型靠分布式RL杀出重围,全网开源
36氪· 2025-12-10 14:55
模型发布与核心表现 - Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有1060亿参数的混合专家模型,基于其强化学习技术栈训练[1] - 该模型在数学、代码、科学与推理的各类基准测试上,达成了同规模中最强的成绩,甚至超越了不少更大的前沿模型[1] - 模型基于GLM 4.5 Air进行了监督微调和强化学习训练,在多项基准测试上均取得了同体量中的最强表现[2] 基准测试成绩详情 - 在AIME 2024测试中,INTELLECT-3得分为90.8,高于GLM-4.5 AIR的84.6和GLM-4.5的85.8[3] - 在AIME25测试中,INTELLECT-3得分为88.0,高于GLM-4.5 AIR的82.0和GLM-4.5的83.3[3] - 在LIVECODE BENCH V6测试中,INTELLECT-3得分为69.3,高于GLM-4.5 AIR的61.5和GLM-4.5的64.5[3] - 在GPQA-DIAMOND测试中,INTELLECT-3得分为74.4,略低于GLM-4.5的77.0和DEEPSEEK-R1-0528的77.5[3] - 在HUMANITY'S LAST EXAM测试中,INTELLECT-3得分为14.6,低于GLM-4.5的14.8和DEEPSEEK-R1-0528的15.9[3] - 在MMLU-PRO测试中,INTELLECT-3得分为81.9,高于GLM-4.5 AIR的73.9和DEEPSEEK-R1-0528的75.3[3] 技术框架与开源策略 - 公司已将完整的训练流程,包括模型权重、训练框架、数据集、RL环境和评测体系全部开源,旨在推动大规模强化学习的开放研究[1] - 训练中使用的软件与基础设施,与即将在Prime Intellect平台向所有人开放的版本完全一致,意味着未来每个人、每家公司都能拥有对最先进模型进行后训练的能力[1] - 训练完整使用了自研的PRIME-RL框架进行端到端训练,该框架与Verifiers环境深度整合,支撑从合成数据生成、监督微调、强化学习到评估的整个后训练体系[4][5] 训练框架核心特点 - PRIME-RL框架最显著的特点是全分布式,研究团队认为强化学习的未来一定是分布式的,这是唯一能避免速度瓶颈、真正扩大训练规模的方式[7] - 框架支持监督微调和大规模混合专家模型的强化学习,并包含统一的环境接口与生态,用于各类智能体式强化学习环境与评测[8] - 公司提供了高吞吐、安全的代码执行系统用于智能体代码类环境,并在64个互联节点上的512张NVIDIA H200 GPU上完成算力编排与管理[8] 训练环境与基础设施 - 训练环境由Verifiers库构建,并托管于Environments Hub,这是公司面向社区的强化学习环境与评测中心[10] - Environments Hub把基于Verifiers的环境作为独立、可锁定版本的Python模块发布,让任务可以独立版本化、共享与持续迭代[10] - 为支持强化学习,公司大幅扩展并升级了自研的Sandboxes基础设施,可以在几千条并发rollout中安全执行外部代码,具备亚秒级启动、毫秒级执行延迟[12] - Prime Sandboxes可以绕过Kubernetes控制面板,通过Rust直接与pod通信,做到接近本地进程的延迟,即使在大规模并发下也能在10秒内启动[12] 算力调度与工程管理 - 研究在64个互联节点上部署了512张NVIDIA H200 GPU完成,最大工程挑战是在可能出现硬件故障的分布式系统里保持确定性与同步[13] - 使用Ansible做基础设施即代码、自动发现硬件,并进行InfiniBand预检以隔离慢节点或故障节点[17] - 通过Slurm + cgroup v2确保任务可以干净退出,不会留下占用GPU显存的残留进程[17] - 用Lustre提供高吞吐训练I/O,用NVMe NFS作为快速元数据与便捷SSH存储,并通过DCGM + Prometheus监控系统快速发现并下线不稳定节点[17] 训练方案与过程 - INTELLECT-3训练主要分两阶段:基于GLM-4.5-Air的监督微调,以及大规模强化学习训练[14] - 两个阶段以及多轮消融实验都在512张H200 GPU上运行,总共持续两个月[14] - 研究人员训练了覆盖数学、代码、科学、逻辑、深度研究、软件工程等类别的多样化强化学习环境,以提升模型的推理与智能体能力[14] - 过去6个月,研究团队重点做了大量关于性能、稳定性和大规模效率的消融实验,INTELLECT-3正是这些研究的成果[9] 未来发展方向 - 公司正在构建开放的超级智能技术栈,把训练前沿模型的能力交到每个人手里[16] - INTELLECT-3证明即使不是大实验室,也可以训练出与顶尖团队同台竞技的模型[16] - 研究人员将继续训练,并更强调智能体环境,预计能在更多任务上获得进一步提升[18] - Environments Hub已拥有500多个任务,涵盖研究、电脑使用、定理证明、自动化和专业领域,下一步是让强化学习覆盖更多、更高质量的社区任务[18] - 研究人员正在让模型能够自我管理上下文,从而让长时序行为真正可通过强化学习训练,未来也会探索专门奖励长时序推理的环境[18]