挑战强化学习后训练霸权！全新无监督方法仅需1条数据+10步优化

核心观点 - 熵最小化（EM）是一种无监督方法，仅用一条无标签数据和10步训练即可显著提升大语言模型（LLM）性能，甚至超越使用大量数据的强化学习（RL）方法 [1] - EM通过最小化模型预测分布的熵来优化模型，无需标注数据或外部监督，与预训练目标完全兼容 [4][8] - 在数学推理任务上，EM方法将Qwen2.5-Math-7B的准确率从53%提升到78.8%（MATH500测试集），从11%提升到35.3%（Minerva Math测试集），从44.1%提升到70.3%（AMC23测试集） [13][14] - EM与RL对模型置信度的影响方向相反：EM导致Logits分布右移，强化模型自信；RL导致左移，受真实信号引导 [15][16][17][18][19] - EM适合未经过大量RL调优的基础模型、需要快速部署或资源有限的场景，但可能对已深度调优的RL模型产生负面影响 [30][31][34] 从RL到EM：LLM微调的困境与新思路 - 当前LLM后训练主流方法是强化学习（RL），特别是结合可验证奖励的RL（RLVR） [2] - RL方法面临高质量标注数据依赖、复杂奖励函数设计、额外奖励模型需求和巨额计算开销等问题 [3][4] - EM提出全新思路，仅依赖模型自身预测分布的熵进行优化，无需外部监督 [4][8] 熵最小化（EM）的实现方法 - EM通过最小化标记级别的熵来减少模型预测不确定性，核心公式涉及条件熵和总体EM损失 [5][6][7] - 该方法鼓励模型提高对自身预测的信心，不依赖外部监督信号或奖励函数 [8] - EM成功依赖示例选择，研究者采用基于模型表现方差的筛选方法，挑选预测不一致性高的示例 [9][10][11] 实验结果 - 仅用一条示例和10步训练，EM方法使Qwen2.5-Math-7B在多个数学推理任务上性能大幅提升 [12][13] - 在MATH500测试集准确率提升25.8个百分点，Minerva Math提升24.3个百分点，AMC23提升26.2个百分点 [14] - EM方法缩小了与先进RL模型的差距，在AMC23基准测试中达到70.3分 [14] EM与RL的对比分析 - EM训练导致Logits分布右移，强化模型自信，增加高概率候选token数量 [16][17] - RL训练导致Logits分布左移，受真实信号引导，减少高概率路径数量 [18][19][20] - 这种差异通过Logits分布偏度量化：EM提高偏度呈现右偏，RL降低偏度甚至导致左偏 [21] EM的局限性 - 存在"过度自信"陷阱，训练约10步后性能达到顶峰，继续训练反而导致性能下降 [26] - EM训练具有显著随机性，相同设置下因种子不同平均得分可能相差高达两倍 [29] EM适用场景 - 适合未进行大量RL调优的基础模型或仅经过SFT的模型 [30] - 适合需要快速部署、资源有限的场景，对数据需求极低 [31] - 可作为现有后训练范式的补充或起点，在RL之前应用能带来增益 [32][33] - 对已深度调优的RL模型可能产生负面影响 [34] 未来研究方向 - 需要探索训练稳定性与鲁棒性，如早停标准或自适应调度机制 [35] - 研究泛化能力与跨领域应用，如对话、摘要、代码生成等领域 [36] - 探索与现有技术（SFT、RLHF等）的融合，构建更强大混合方法 [37] - 深入研究EM作为轻量级信心校准方法的潜力 [38][39]