Workflow
RhymeRL
icon
搜索文档
攻克强化学习「最慢一环」!交大字节联手,让大模型RL训练速度飙升2.6倍
量子位· 2025-09-13 16:06
强化学习训练效率瓶颈 - 强化学习训练效率低下 投入巨大但产出缓慢 成为AI基础设施的阿喀琉斯之踵 [1] - Rollout阶段占训练时间超过80% 受内存带宽限制和自回归特性制约 [1] RhymeRL技术创新 - 基于历史数据复用实现效率提升 训练吞吐量提升2.6倍 [2] - 发现相邻训练周期存在95%的历史Token可复用 序列相似性极高 [3] - 响应长度排序稳定 长度分布相似性显著 [4] - 采用HistoSpec技术将投机解码引入RL 以历史响应作为草稿模板 [9] - 通过树状草稿总结和批量验证 将逐字生成转为并行验证 [11][12] - 草稿接受率极高 打破内存带宽限制提升计算密度 [13] - HistoPipe实现跨步互补调度 奇数步由短到长处理 偶数步由长到短处理 [17] - 通过削峰填谷策略将GPU资源浪费降至最低 [19] 性能提升效果 - 在数学和代码任务上实现端到端训练吞吐量提升2.61倍 [21] - 适用于不同模型大小和响应长度场景 加速效果显著 [23] - 减少资源需求并缩短训练时间 加速AI技术迭代 [22] 行业意义 - 提出基于历史信息端到端加速强化学习的新范式 [23] - 充分发挥系统调度能力与硬件算力资源 适配现有训练算法 [23]