Reinforcement Learning Scaling Law
搜索文档
Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law
机器之心· 2025-10-19 17:17
研究背景与核心问题 - 当前LLM领域的强化学习研究缺乏系统化的扩展理论,进展多依赖于针对特定任务的孤立研究或高昂的大规模实验,限制了学术界的广泛参与[2][3] - 研究旨在为强化学习扩展奠定科学基础,解决“如何扩展”以及“扩展什么”这两个基本问题,借鉴预训练领域已成熟的Scaling Law概念[3] 研究方法与框架 - 研究提出了一个预测性框架,使用类sigmoid饱和曲线将期望奖励与训练算力联系起来,关键参数包括渐近性能上限A、算力效率B和性能曲线中点C_mid[4][5] - 该框架使研究者能根据小规模实验结果推测更大算力下的表现,从而在不耗尽算力预算的前提下评估RL方法的可扩展性[7] - 实验基于超过40万GPU小时的系统化实证研究,在Nvidia GB200 GPU上进行,每次实验使用约1.6万GPU小时[8] 关键研究发现与原则 - 不同RL方法在算力扩展时会遇到不同的性能天花板,该上限可通过损失函数类型、batch size等设计选择进行调整[10] - 在小算力下表现出色的方法,放大到大规模算力时可能效果更差,研究框架可提前识别真正具有可扩展性的方法[10] - 许多被认为能提高峰值性能的技巧主要影响算力效率,而非最终性能上限[10] ScaleRL配方设计 - ScaleRL整合了现有成熟方法以实现可预测扩展,包括异步Pipeline-RL结构、生成长度中断机制、截断重要性采样RL损失等组件[11][37] - 采用PipelineRL-8结构,因其与PPO-off-policy在最终性能上限相近,但显著提升了算力效率,减少了GPU空闲时间[19] - 选择CISPO作为最佳损失类型,因其在训练过程中展现出更长时间的线性回报增长趋势,并在后期略优于GSPO[24] - 在logits层采用FP32精度修正能显著提高最终性能,从0.52提升至0.61[26] 扩展维度验证 - ScaleRL在模型规模上具备尺度不变性,17B×16的MoE大模型表现出远高于8B稠密模型的RL最终性能,且仅使用后者1/6的RL训练算力[41] - 增加生成长度会在训练初期放慢进展,但最终提升性能上限,验证了长上下文强化学习是提升性能天花板的手段[42][43] - 较大的批次能够稳定地提高性能上限A并避免训练停滞,在最大规模数学任务中将batch size提升至2048个prompt后稳定了训练[47][48] - 在固定总批量前提下,调整每个提示的生成次数对性能上限和效率影响较小[49]