大语言模型后训练

搜索文档
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
量子位· 2025-06-01 11:40
核心观点 - 熵最小化(EM)是一种无监督方法,仅用一条无标签数据和10步训练即可显著提升大语言模型(LLM)性能,甚至超越使用大量数据的强化学习(RL)方法 [1] - EM通过最小化模型预测分布的熵来优化模型,无需标注数据或外部监督,与预训练目标完全兼容 [4][8] - 在数学推理任务上,EM方法将Qwen2.5-Math-7B的准确率从53%提升到78.8%(MATH500测试集),从11%提升到35.3%(Minerva Math测试集),从44.1%提升到70.3%(AMC23测试集) [13][14] - EM与RL对模型置信度的影响方向相反:EM导致Logits分布右移,强化模型自信;RL导致左移,受真实信号引导 [15][16][17][18][19] - EM适合未经过大量RL调优的基础模型、需要快速部署或资源有限的场景,但可能对已深度调优的RL模型产生负面影响 [30][31][34] 从RL到EM:LLM微调的困境与新思路 - 当前LLM后训练主流方法是强化学习(RL),特别是结合可验证奖励的RL(RLVR) [2] - RL方法面临高质量标注数据依赖、复杂奖励函数设计、额外奖励模型需求和巨额计算开销等问题 [3][4] - EM提出全新思路,仅依赖模型自身预测分布的熵进行优化,无需外部监督 [4][8] 熵最小化(EM)的实现方法 - EM通过最小化标记级别的熵来减少模型预测不确定性,核心公式涉及条件熵和总体EM损失 [5][6][7] - 该方法鼓励模型提高对自身预测的信心,不依赖外部监督信号或奖励函数 [8] - EM成功依赖示例选择,研究者采用基于模型表现方差的筛选方法,挑选预测不一致性高的示例 [9][10][11] 实验结果 - 仅用一条示例和10步训练,EM方法使Qwen2.5-Math-7B在多个数学推理任务上性能大幅提升 [12][13] - 在MATH500测试集准确率提升25.8个百分点,Minerva Math提升24.3个百分点,AMC23提升26.2个百分点 [14] - EM方法缩小了与先进RL模型的差距,在AMC23基准测试中达到70.3分 [14] EM与RL的对比分析 - EM训练导致Logits分布右移,强化模型自信,增加高概率候选token数量 [16][17] - RL训练导致Logits分布左移,受真实信号引导,减少高概率路径数量 [18][19][20] - 这种差异通过Logits分布偏度量化:EM提高偏度呈现右偏,RL降低偏度甚至导致左偏 [21] EM的局限性 - 存在"过度自信"陷阱,训练约10步后性能达到顶峰,继续训练反而导致性能下降 [26] - EM训练具有显著随机性,相同设置下因种子不同平均得分可能相差高达两倍 [29] EM适用场景 - 适合未进行大量RL调优的基础模型或仅经过SFT的模型 [30] - 适合需要快速部署、资源有限的场景,对数据需求极低 [31] - 可作为现有后训练范式的补充或起点,在RL之前应用能带来增益 [32][33] - 对已深度调优的RL模型可能产生负面影响 [34] 未来研究方向 - 需要探索训练稳定性与鲁棒性,如早停标准或自适应调度机制 [35] - 研究泛化能力与跨领域应用,如对话、摘要、代码生成等领域 [36] - 探索与现有技术(SFT、RLHF等)的融合,构建更强大混合方法 [37] - 深入研究EM作为轻量级信心校准方法的潜力 [38][39]