Reinforcement Learning Scaling Law

搜索文档

Meta用40万个GPU小时做了一个实验，只为弄清强化学习Scaling Law

机器之心· 2025-10-19 17:17

研究背景与核心问题 - 当前LLM领域的强化学习研究缺乏系统化的扩展理论，进展多依赖于针对特定任务的孤立研究或高昂的大规模实验，限制了学术界的广泛参与[2][3] - 研究旨在为强化学习扩展奠定科学基础，解决“如何扩展”以及“扩展什么”这两个基本问题，借鉴预训练领域已成熟的Scaling Law概念[3] 研究方法与框架 - 研究提出了一个预测性框架，使用类sigmoid饱和曲线将期望奖励与训练算力联系起来，关键参数包括渐近性能上限A、算力效率B和性能曲线中点C_mid[4][5] - 该框架使研究者能根据小规模实验结果推测更大算力下的表现，从而在不耗尽算力预算的前提下评估RL方法的可扩展性[7] - 实验基于超过40万GPU小时的系统化实证研究，在Nvidia GB200 GPU上进行，每次实验使用约1.6万GPU小时[8] 关键研究发现与原则 - 不同RL方法在算力扩展时会遇到不同的性能天花板，该上限可通过损失函数类型、batch size等设计选择进行调整[10] - 在小算力下表现出色的方法，放大到大规模算力时可能效果更差，研究框架可提前识别真正具有可扩展性的方法[10] - 许多被认为能提高峰值性能的技巧主要影响算力效率，而非最终性能上限[10] ScaleRL配方设计 - ScaleRL整合了现有成熟方法以实现可预测扩展，包括异步Pipeline-RL结构、生成长度中断机制、截断重要性采样RL损失等组件[11][37] - 采用PipelineRL-8结构，因其与PPO-off-policy在最终性能上限相近，但显著提升了算力效率，减少了GPU空闲时间[19] - 选择CISPO作为最佳损失类型，因其在训练过程中展现出更长时间的线性回报增长趋势，并在后期略优于GSPO[24] - 在logits层采用FP32精度修正能显著提高最终性能，从0.52提升至0.61[26] 扩展维度验证 - ScaleRL在模型规模上具备尺度不变性，17B×16的MoE大模型表现出远高于8B稠密模型的RL最终性能，且仅使用后者1/6的RL训练算力[41] - 增加生成长度会在训练初期放慢进展，但最终提升性能上限，验证了长上下文强化学习是提升性能天花板的手段[42][43] - 较大的批次能够稳定地提高性能上限A并避免训练停滞，在最大规模数学任务中将batch size提升至2048个prompt后稳定了训练[47][48] - 在固定总批量前提下，调整每个提示的生成次数对性能上限和效率影响较小[49]

Meta Platforms(US:META)

Reinforcement Learning Scaling Law

Artificial Intelligence

ScaleRL

Reinforcement Learning Scaling Law

Artificial Intelligence

ScaleRL