大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

研究背景与核心问题 - 自2025年以来，强化学习已成为大语言模型后训练阶段的默认范式，能激发出模型复杂的推理和长思维链能力，并赋予其达成超人类表现的潜力[2] - 然而，直接将普通基座模型用于强化学习训练时，由于缺乏方向性引导，算法在有限步数内难以探索出正确的推理路径[2] - 当前标准做法是在强化学习前，使用少量优质数据进行监督微调，为模型进行“冷启动”热身，以提高后续强化学习阶段的效率[2] 核心发现：冷启动的“致命陷阱” - 研究发现一个反直觉现象：在监督微调冷启动阶段评估性能最好的检查点，用于后续强化学习训练后，最终成绩往往不是最好的，甚至会出现倒退[6] - 研究团队首次揭示，冷启动后表现最好的检查点，往往并不对应最大的强化学习潜力[3] - 造成此现象的核心原因是“作为强化学习冷启动的监督微调”与“单纯的监督微调”在目标上存在根本分歧[6] - 如果监督微调训练过度，传统的交叉熵损失函数会强迫模型死记硬背演示数据细节，导致模型丢失原本丰富的知识分布和生成多样性，从而在进入强化学习阶段后失去探索新路径的能力，锁定了强化学习的上限[6] - 随着监督微调步数增加，模型在验证集上的性能可能仍在上升，但经过强化学习训练后的最终潜力却会早早开始下滑[10] 破局关键：输出多样性的重要性 - 研究发现，不应仅以准确率作为监督微调冷启动的停止标准，而必须兼顾准确率与多样性[3] - 在监督微调的早期，模型在学习新推理格式的同时，还保留着基座的原始知识，此时模型的输出多样性会达到一个峰值；随着训练继续，模型开始过拟合，多样性迅速暴跌[12] - 这个输出多样性的“黄金拐点”，恰恰对应着模型强化学习潜力的最高点，是开启强化学习训练的最佳时机[13][16] - 强化学习的成功高度依赖于“探索”与“利用”的平衡，如果模型在进入强化学习阶段前就丢失了输出多样性，会因探索空间不足导致最终效果大打折扣[8][25] 解决方案：自适应早停损失函数 - 研究团队提出了一种全新的轻量级训练目标——自适应早停损失函数，旨在为大模型的强化学习训练打造最完美的起跑线[3][17] - 自适应早停损失函数的核心哲学是“因材施教”，它不再盲目要求模型在所有地方都完美拟合演示数据，而是在Token和子序列两个微观层面上动态调节学习力度[18] - 在Token级别，如果模型当前预测概率已经很高，自适应早停损失函数会自动降低该Token的损失权重，防止对特定词汇的过拟合[18] - 在子序列级别，自适应早停损失函数会实时计算当前生成前缀的平均置信度，如果前半部分已非常符合目标分布，则会在后续生成中放宽限制，鼓励探索[18] - 通过这种精细的动态平衡，自适应早停损失函数成功让模型在“学会长思维链推理模式”和“保留基座原始探索能力”之间找到了完美平衡点[19] 实验验证与性能表现 - 研究团队在极具挑战性的数学推理任务上进行了大规模实验，选用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B及Llama-3.1-8B-Instruct作为基座模型，并在AIME 24/25、AMC 23、MATH-500等榜单上进行测试[21] - 实验结果表明，无论在哪种基座模型上，使用自适应早停损失函数作为冷启动策略，其后续经过强化学习训练的最终性能，全面碾压了直接强化学习、标准交叉熵损失监督微调以及现有的其他前沿方法[21] - 在Qwen2.5-7B-Instruct模型上，使用自适应早停损失函数后进行强化学习，在AIME25、AMC23、AIME24、MATH、Min、Olym等基准测试上的平均得分达到42.26，优于其他所有冷启动方法[22] - 在Qwen2.5-Math-7B模型上，自适应早停损失函数结合强化学习取得了50.04的平均分，同样表现最佳[22] - 进一步测试证明，无论冷启动数据量多寡、数据难度如何，自适应早停损失函数都能稳定发挥，始终提供优于传统方法的强化学习潜力[23][24] 研究意义与行业影响 - 该研究打破了“监督微调拟合越好越好”的迷思，证明了在冷启动阶段，“保持多样性”比“满分模仿”在后续的强化学习训练中更具长期价值[26] - 自适应早停损失函数的提出不仅仅是一个损失函数的改进，更是一次对大语言模型后训练范式的认知刷新[26] - 该研究为从监督微调到强化学习范式的转变过程提供了重要的探索起点，未来可能会有更多研究去探索这两种范式带来的根本不同[26]