异步强化学习

搜索文档
重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
机器之心· 2025-06-04 12:41
核心观点 - 清华大学交叉信息院和蚂蚁技术研究院联合团队开源全异步强化学习训练系统AReaL-boba²,实现更高效、更易用的RL训练 [2] - AReaL-boba²通过算法系统协同设计实现完全异步RL训练,训练速度最高提升2.77倍,GPU利用率大幅优化 [8][14] - 基于Qwen3系列模型的8B/14B版本在LiveCodeBench、Codeforce等代码评测榜单上取得开源SOTA成绩 [4][5] - 系统原生支持多轮智能体强化学习训练,拥抱Agentic RL技术浪潮 [8][39] 技术升级 系统架构 - 采用全异步RL架构,生成模块与训练模块完全解耦,GPU空闲时间减少52% [14][19] - 系统通信开销控制在总训练时间5%以内,32B大模型仍保持良好扩展性 [15][18] - 核心组件包括可中断轨迹生成器、奖励服务、训练器和生成控制器 [22] 算法创新 - 提出数据陈旧度控制机制,通过max staleness参数保证训练稳定性 [24][27] - 开发解耦PPO目标函数,解决异步训练中的数据分布差异问题 [28] - 在staleness=8时仍能保持模型效果,AIME24任务得分达42.2分 [33][35] 性能表现 训练效率 - 1.5B模型在128卡训练时,异步RL每个训练步骤耗时198.5秒,比同步RL减少52% [19] - 32k输出长度下,分卡模式显存碎片更少,32B模型扩展性优于同步系统 [7][18] 模型效果 - AReaL-boba²-14B在LiveCodeBench达69.1分,Codeforce rating 2044,Codecontests 46.2分 [5] - 开源复现版AReaL-boba²-Open在8B/14B尺寸上同样超越现有基线 [6] - 数学任务上decoupled PPO算法在staleness=8时效果优于经典PPO 18.9分 [35] 开发者支持 - 提供详细教程和文档,涵盖安装、算法定制到问题排查全流程 [8][37] - 开源完整训练系统、数据集、脚本及SOTA模型权重 [8][36] - 新增多轮Agentic RL训练支持,提供数学推理任务示例 [39][40]