理解 RL学习的本质！

文章核心观点 - 一篇获得NeurIPS最佳论文奖的研究表明，强化学习与人类反馈微调并不能让大语言模型获得超越其基础模型的新能力，它只是提高了在模型已有能力范围内寻找解决方案的搜索效率[4] - 另一项来自Meta的研究从参数更新机制上解释了上述现象，指出RL训练存在一种高度局部化、受模型自身几何结构引导的优化偏差，这限制了其探索新路径的能力[18][23] - 有研究指出，监督微调虽然能扩展模型的能力边界，但会导致灾难性遗忘，而RL训练则能避免此问题，暗示在“学习新能力”和“避免遗忘”之间可能存在权衡[31][34] - 一种名为“On-policy Distillation”的混合方法被提出，可能兼具SFT扩展能力和RL避免遗忘的优点，或代表未来的探索方向[35][36] RLVR对模型能力边界的影响 - 研究通过pass@K评估发现，在K=1时，RL模型表现优于基础模型，但随着K增大，两者表现趋近，并在K较大时被基础模型超越，证明RL并未拓展模型的能力边界[4][7] - 实验结论在各种RL方法、多种评估测试集及不同模型规模上均成立[5] - RL训练后的模型在精度分布上呈现两极分化：在高精度区域非常集中，但在低精度区域表现不如基础模型，且输出精度为零的概率更高[8][9] - 数据显示，存在许多基础模型能解决而RL模型不能解决的题目，但几乎不存在基础模型不能解决而RL模型能解决的题目[11] - 与RL不同，蒸馏学习能够拓展模型的能力，使其学会解决原本无法解决的问题[12] RL训练的参数更新机制与优化偏差 - 研究指出RL训练存在“模型条件优化偏差”，参数更新高度局部化，且在不同运行、数据集和RL方法间保持高度一致[18] - 该偏差受“三重门”机制影响：1) 策略RL施加的单步KL约束，像狗链一样限制每一步更新不远离原始分布[21]；2) 模型几何结构决定了KL约束下的更新方向，更新会避开高曲率方向，沿主角度进行[22]；3) 低精度表示充当了过滤器，将幅度很小的更新归零，这造成了更新稀疏的表象，实际更新参数并不少[23] - 因此，RL训练本质上是在强化模型预训练先验内的解决方案，而非探索其外的创新路径[14] - 这种机制导致RL训练保持了参数谱几何结构，并避开了主要权重的更新，而SFT训练则会扭曲谱几何并针对主要权重[27] 不同训练方法的权衡与潜在解决方案 - 监督微调能扩展模型能力但会导致灾难性遗忘，而RL训练不能扩展能力但能避免遗忘，两者可能构成一种权衡[31][34] - 一项名为“On-policy Distillation”的方法被提出，它原理上是RL训练，但过程类似于SFT蒸馏，可能兼具扩展能力边界、高效寻找推理路径和避免灾难性遗忘的潜力[35][36][42] - 有研究建议，未来可能需要设计“RL-native, geometry-aware”的算法，例如通过冻结主要权重、更新非主要低幅度权重来适配RL学习的特征[25][28] - 该领域研究尚未定论，有论文提出了看似相反的结论，表明可能需要更细化的能力分类学和更科学的消融实验[16]