Workflow
Llama 3
icon
搜索文档
ACL 2026 | 中科大&上海AILab揭示强化学习后训练的Scaling Law
机器之心· 2026-04-27 19:00
RL后训练Scaling Law的发现与验证 - 研究团队首次全面刻画了大模型强化学习后训练在数学推理任务上的Scaling行为,并提出了一套能够预测模型学习效率与训练轨迹的幂律公式 [2] - 该公式在Qwen2.5全系列模型(0.5B–72B)上得到验证,并在Llama 3系列(1B–70B)上完成了跨架构验证,确认了其普适性 [2][11] - 该工作已被ACL 2026主会议接收 [3] 核心Scaling公式及其预测能力 - 研究发现模型的测试损失L(定义为1 - Pass@1)与训练资源X(计算量C或数据量D)之间存在对数线性关系:log L(N, X) = -k(N) * log X + E(N),其中k(N)是随模型参数量N单调递增的学习效率 [15] - 该公式具备高精度拟合能力(R² > 0.99),并支持跨模型外推,例如基于0.5B至32B模型数据可预测72B模型的训练轨迹 [16] - 该公式也支持模型内轨迹预测,仅需训练早期20%–30%的数据点便可准确外推模型最终收敛性能 [17] - 公式在计算量和数据量两个维度上具有统一的函数形式,理论一致性为其可靠性提供了额外支撑 [19] 学习效率的饱和趋势与资源权衡 - 研究发现学习效率k(N)随模型参数量N增长而增长,但增长趋势非线性,会逐渐趋于饱和,可建模为k(N) = K_max / (1 + N0/N) [22] - 在本研究实验范围内,超过32B参数后,k(N)的边际增益显著下降,逐渐逼近理论上限K_max [23] - 这导致在等量计算预算下出现“性能交叉”现象:32B模型在训练初期的表现甚至优于72B模型,因为小模型在相同计算量下能完成更多训练步数 [25] - 这一发现揭示了在计算受限场景下,盲目堆砌大模型未必是最优策略,需要在模型规模和训练步数之间找到平衡点 [25] 数据重用策略的有效性 - 研究团队通过对照实验发现,在高质量推理数据有限的场景下,适度的数据重用是一种低成本、高回报的训练策略 [29] - 当数据重复因子≤25时,模型最终性能与使用完整数据集几乎没有差异,性能主要由总优化步数决定 [29] - 只有在极端重复(重复因子=100)时才会出现明显的过拟合迹象 [29] 实验设计与评测框架 - 主实验覆盖了Qwen2.5全系列Dense模型(0.5B至72B),并采用Llama 3系列(1B至70B)进行跨架构验证,训练统一采用VeRL平台和GRPO算法 [11] - 训练数据来自guru-RL-92k数据集的数学子集,约包含5.4万道题,并按难度排序实现课程学习 [12] - 评测核心指标为测试损失L = 1 - Pass@1,域内评测基于500道题,跨领域评测覆盖8个benchmark共约3000道题 [12] 行业意义与影响 - 该研究为RL后训练建立了系统性的scaling理论框架,提供了一套可量化、可预测、可指导实践的分析框架 [34] - 研究揭示了scale up是有力的手段,但并非万能,理解scaling的边界才能更聪明地分配资源 [34] - 该成果意味着研究人员可通过小模型实验预判大模型的训练走向,从而大幅降低试错成本 [16] - 训练轨迹预测能力可为训练过程中的资源分配与早停决策提供直接指导,有效降低不必要的算力消耗 [17]