文章核心观点 - 一项来自CMU、清华大学、浙江大学等机构的研究指出,当前广泛使用的强化学习(RL)并未真正优化最大似然目标,而只是在优化其一阶近似,这导致了模型性能提升后期困难 [2][6][7] - 研究团队提出了最大似然强化学习(MaxRL),通过引入一族以计算量为索引的目标函数,使训练目标能逐步逼近真正的最大似然优化,从而在性能和计算效率上显著超越现有强化学习方法 [2][9][22] 传统强化学习的局限与理论新发现 - 在代码生成、数学推理、多步决策等任务中,业界已形成共识:只要反馈是二值的、过程是不可微的,就使用强化学习 [5] - 严格的理论分析显示,基于期望奖励的强化学习只是在优化最大似然目标的一阶近似,并未真正最大化模型生成正确答案的概率 [2][6][7] - 这一理论偏差解释了强化学习在训练后期性能提升越加困难的现象 [8] 最大似然强化学习(MaxRL)的理论框架 - 研究将基于正确性反馈的强化学习形式化为一个潜变量生成的最大似然问题 [9] - 提出了一族以计算量为索引的目标函数,通过对pass@k事件进行Maclaurin展开,在期望回报与精确最大似然之间实现连续插值 [9][11] - 当截断级别T=1时,目标函数还原为标准强化学习;当T→∞时,还原为最大似然;中间的T值则在两者之间插值 [15] - 最大似然目标的梯度可以等价表示为仅对成功轨迹的梯度进行平均,这为构造简洁的梯度估计器提供了直接途径 [18][19] - MaxRL提供了一个原则性框架,通过增加计算量来换取对最大似然目标更高保真度的近似 [16][20] MaxRL的实验性能与效率优势 - 在多个模型规模和多类任务上的系统评估显示,MaxRL在性能与计算效率的权衡上稳定优于现有强化学习方法 [22] - 在相同训练步数下,MaxRL性能提升明显更快,并且随着rollout数的增加持续受益 [24] - 相较于使用GRPO训练的模型,MaxRL测试时的scaling效率最高可提升20倍 [24] - 在迷宫任务中,随着训练rollouts增加,MaxRL能持续降低−log(Pass@k),而GRPO与RLOO的改进幅度则明显更早趋于平缓 [25] - 对于GRPO与RLOO,性能曲线在早期下降后迅速变平,说明额外采样主要用于降低噪声;而MaxRL在不同k值下均保持持续下降,推动模型不断逼近更接近最大似然的优化目标 [26] - 在更大规模设置下,MaxRL的优势依然保持稳定,未出现收益递减过快或优势消失的现象 [29] - 即使在反馈存在噪声或验证信号并非完全可靠的设置下,MaxRL仍然能够保持相对稳定的性能优势 [30]
强化学习远不是最优,CMU刚刚提出最大似然强化学习
机器之心·2026-02-05 15:52