大规模强化学习
搜索文档
字节Seed发布最强数学模型:一招“打草稿”,IMO银牌变金牌
量子位· 2025-12-25 14:08
核心观点 - 字节跳动旗下Seed AI4Math团队发布数学推理专用模型Seed Prover 1.5,在Scaling Law和强化学习加持下,其数学推理能力达到国际顶尖水平,在IMO竞赛中取得金牌成绩,并在多项基准测试中刷新SOTA记录 [1][4][5][6] 模型性能与成就 - Seed Prover 1.5在16.5小时内解决了IMO 2025的前5道题目,仅失一题,获得35分,达到今年IMO金牌线 [1] - 该成绩与谷歌Gemini的IMO金牌成绩持平,并大幅超越了其前代模型(前代模型耗时3天完成4道题及一道题的部分证明,仅获银牌成绩)[3] - 模型在北美本科级别数学竞赛Putnam基准上,大幅刷新了SOTA成绩 [4] 技术架构与创新 - 模型采用“Agentic Prover”架构,这是一种新的形式化数学推理范式,将Lean等形式语言视为工具,允许模型在证明过程中自主调用多种工具进行交互和验证 [12][13][14] - 核心创新之一是引入了“Sketch Model”,它模拟人类数学家的工作方式,先将自然语言证明转化为非形式化的逻辑草稿和引理结构,从而将复杂问题拆解为更易解决的子目标 [14][22][23] - 工作流采用分层级的多智能体协作系统:Natural Language Prover提供高层数学直觉,Sketch Model转化为形式化引理结构,Agentic Prover并行攻克各个引理 [37] - 模型采用基于引理的交互式证明方式,既非低效的逐步证明,也非高风险的一次性完整证明,提升了推理的并行度和成功率 [15][17] 训练方法与效率提升 - 模型进行了大规模的Agentic强化学习训练,随着训练步数增加,模型在训练集上的证明通过率从初始的50%提升至接近90% [18][19] - 强化学习带来了显著的效率提升,Seed Prover 1.5仅需少量计算资源,就能在Putnam等高难度数据集上击败消耗大量算力的上一代模型 [19] - 实验数据对比显示,在Putnam数据集上,Seed-Prover 1.5(agentic prover only)以特定的测试配置(pass@8 × 8)取得了57/100的成绩,优于前代模型(35/100)及其他竞品 [20] - 研究验证了测试时Scaling的有效性,即投入更多计算资源(测试时)能显著提高解题率,且解决率随计算资源投入呈对数线性增长 [5][28][29] 模型规格与背景 - Seed Prover 1.5的参数规模为230B总参数,23B激活参数,与其基础模型Seed 1.6相同 [8] - 该研究团队为字节跳动Seed AI4Math团队,核心成员包括来自清华大学、牛津大学、卡内基梅隆大学等背景的研究人员 [30][32][33][34]
只用512张H200,106B模型靠分布式RL杀出重围,全网开源
36氪· 2025-12-10 14:55
模型发布与核心表现 - Prime Intellect正式发布了INTELLECT-3模型,这是一款拥有1060亿参数的混合专家模型,基于其强化学习技术栈训练[1] - 该模型在数学、代码、科学与推理的各类基准测试上,达成了同规模中最强的成绩,甚至超越了不少更大的前沿模型[1] - 模型基于GLM 4.5 Air进行了监督微调和强化学习训练,在多项基准测试上均取得了同体量中的最强表现[2] 基准测试成绩详情 - 在AIME 2024测试中,INTELLECT-3得分为90.8,高于GLM-4.5 AIR的84.6和GLM-4.5的85.8[3] - 在AIME25测试中,INTELLECT-3得分为88.0,高于GLM-4.5 AIR的82.0和GLM-4.5的83.3[3] - 在LIVECODE BENCH V6测试中,INTELLECT-3得分为69.3,高于GLM-4.5 AIR的61.5和GLM-4.5的64.5[3] - 在GPQA-DIAMOND测试中,INTELLECT-3得分为74.4,略低于GLM-4.5的77.0和DEEPSEEK-R1-0528的77.5[3] - 在HUMANITY'S LAST EXAM测试中,INTELLECT-3得分为14.6,低于GLM-4.5的14.8和DEEPSEEK-R1-0528的15.9[3] - 在MMLU-PRO测试中,INTELLECT-3得分为81.9,高于GLM-4.5 AIR的73.9和DEEPSEEK-R1-0528的75.3[3] 技术框架与开源策略 - 公司已将完整的训练流程,包括模型权重、训练框架、数据集、RL环境和评测体系全部开源,旨在推动大规模强化学习的开放研究[1] - 训练中使用的软件与基础设施,与即将在Prime Intellect平台向所有人开放的版本完全一致,意味着未来每个人、每家公司都能拥有对最先进模型进行后训练的能力[1] - 训练完整使用了自研的PRIME-RL框架进行端到端训练,该框架与Verifiers环境深度整合,支撑从合成数据生成、监督微调、强化学习到评估的整个后训练体系[4][5] 训练框架核心特点 - PRIME-RL框架最显著的特点是全分布式,研究团队认为强化学习的未来一定是分布式的,这是唯一能避免速度瓶颈、真正扩大训练规模的方式[7] - 框架支持监督微调和大规模混合专家模型的强化学习,并包含统一的环境接口与生态,用于各类智能体式强化学习环境与评测[8] - 公司提供了高吞吐、安全的代码执行系统用于智能体代码类环境,并在64个互联节点上的512张NVIDIA H200 GPU上完成算力编排与管理[8] 训练环境与基础设施 - 训练环境由Verifiers库构建,并托管于Environments Hub,这是公司面向社区的强化学习环境与评测中心[10] - Environments Hub把基于Verifiers的环境作为独立、可锁定版本的Python模块发布,让任务可以独立版本化、共享与持续迭代[10] - 为支持强化学习,公司大幅扩展并升级了自研的Sandboxes基础设施,可以在几千条并发rollout中安全执行外部代码,具备亚秒级启动、毫秒级执行延迟[12] - Prime Sandboxes可以绕过Kubernetes控制面板,通过Rust直接与pod通信,做到接近本地进程的延迟,即使在大规模并发下也能在10秒内启动[12] 算力调度与工程管理 - 研究在64个互联节点上部署了512张NVIDIA H200 GPU完成,最大工程挑战是在可能出现硬件故障的分布式系统里保持确定性与同步[13] - 使用Ansible做基础设施即代码、自动发现硬件,并进行InfiniBand预检以隔离慢节点或故障节点[17] - 通过Slurm + cgroup v2确保任务可以干净退出,不会留下占用GPU显存的残留进程[17] - 用Lustre提供高吞吐训练I/O,用NVMe NFS作为快速元数据与便捷SSH存储,并通过DCGM + Prometheus监控系统快速发现并下线不稳定节点[17] 训练方案与过程 - INTELLECT-3训练主要分两阶段:基于GLM-4.5-Air的监督微调,以及大规模强化学习训练[14] - 两个阶段以及多轮消融实验都在512张H200 GPU上运行,总共持续两个月[14] - 研究人员训练了覆盖数学、代码、科学、逻辑、深度研究、软件工程等类别的多样化强化学习环境,以提升模型的推理与智能体能力[14] - 过去6个月,研究团队重点做了大量关于性能、稳定性和大规模效率的消融实验,INTELLECT-3正是这些研究的成果[9] 未来发展方向 - 公司正在构建开放的超级智能技术栈,把训练前沿模型的能力交到每个人手里[16] - INTELLECT-3证明即使不是大实验室,也可以训练出与顶尖团队同台竞技的模型[16] - 研究人员将继续训练,并更强调智能体环境,预计能在更多任务上获得进一步提升[18] - Environments Hub已拥有500多个任务,涵盖研究、电脑使用、定理证明、自动化和专业领域,下一步是让强化学习覆盖更多、更高质量的社区任务[18] - 研究人员正在让模型能够自我管理上下文,从而让长时序行为真正可通过强化学习训练,未来也会探索专门奖励长时序推理的环境[18]
OpenAI回归机器人:想把大模型推向物理世界
36氪· 2025-09-17 19:12
公司战略调整 - OpenAI将研究与招聘资源重新投向具身智能领域 重点推进人形机器人系统研发[1] - 公司重建并扩编机器人团队 采用遥操作与仿真驱动的数据训练闭环[3][9] - 前Meta AR硬件负责人Caitlin Kalinowski加入 负责机器人与消费硬件方向[4] 技术路径规划 - 通过遥操作与Nvidia Isaac等仿真工具收集多样交互数据 构建动作生成控制策略[3][8] - 采用大规模强化学习与GPU管线优化技术 实现感知-控制的时序与稳定性[3][8] - 探索传感器 执行器 计算元件集成 面向真实约束进行形态设计[3][8] 产品开发进展 - 机械产品工程师岗位要求为高产量100万台以上设计机械系统的经验[3] - 公司专注于解锁通用机器人 强调可规模化制造的前置设计[3] - 是否自建硬件或与外部制造商合作仍未明朗[3][9] 行业发展背景 - 人形机器人赛道自2024年以来资本流入超过50亿美元[9] - 特斯拉 谷歌 Agility等企业均在推进原型验证与小规模商用[9] - 机构对2050年万亿美元级市场规模展望持续强化[9] 历史技术积累 - 公司2019年Dactyl五指机械手实现单手复原魔方 展示仿真到现实的突破[6] - 曾采用ADR自动域随机化等方法 2021年关闭团队转向通用模型研发[6] - 当前回归是为实现技术与物理世界更深层耦合的必经之路[6]