Workflow
中心化对数似然(CLL)
icon
搜索文档
用SFT打出RL的效果?微软联合提出高效后训练算法
机器之心· 2026-03-25 15:44
文章核心观点 - 微软与东南大学联合提出了一种新的大语言模型后训练方法,旨在通过量化监督微调与强化学习在数据层面的差距,并利用域内微调和提示解码等技术,实现以接近监督微调的效率和资源消耗,达到甚至超越强化学习的效果 [2][3][24] 大语言模型后训练的现状与挑战 - 监督微调利用高质量的离线数据快速注入知识,但受限于静态数据分布,泛化能力容易触及天花板并可能引发灾难性遗忘 [2] - 强化学习允许模型在探索中自我迭代,上限极高,但存在训练不稳定、计算资源消耗巨大等痛点 [2] 核心理论与量化指标 - 研究指出,传统困惑度或对数概率指标会混淆“题目本身难度”与“数据分布偏移”,引入了大量“噪声方差” [6] - 研究提出“中心化对数似然”作为量化指标,该指标等于Token的对数概率加上当前上下文的预测熵,被证明在信噪比意义下具有最优性,能有效区分模型自身生成的数据与其他来源数据 [6][7][11] - 该理论几乎没有任何偏离大语言模型场景的假设,可直接进行实验验证 [9] 提出的新方法:域内微调 - 传统监督微调假设训练集中的每个词都是绝对“真理”,对预测错误施加严厉惩罚,导致在遇到噪声或分布外数据时可能引发灾难性遗忘 [12][13] - 域内微调放弃了强硬的盲目拟合,基于中心化对数似然指标引入自适应调节机制,以更温和的方式更新模型参数 [14][17] 提出的新方法:提示解码 - 简单的自我蒸馏方法生成的数据,对人眼而言很像模型分布,但对模型训练来说仍是离线数据 [20] - 提示解码在自我蒸馏和正常解码之间进行基于熵的自适应模式切换:当教师模型认为当前Token确定性极高时增加其比重,否则交给学生模型保持,从而有效提升了生成数据的分布指标 [22] 实验效果与效率 - 在Qwen2.5-7B、Qwen2.5-7B-instruct和DeepSeek-R1-distill-Qwen-7B等模型上的实验表明,新方法在多项评测中超越了知名的离线强化学习算法 [24] - 新方法使用的计算资源远低于强化学习算法,例如在Qwen2.5-7B-instruct模型上,提示解码结合监督微调仅需139.6 GPU小时,而DPO@16需要197.6 GPU小时,Rej@16需要191.2 GPU小时 [24] - 在Qwen2.5-7B-instruct模型上,提示解码结合监督微调在数学评测集上的得分达到36.63%,相比原始模型的33.48%提升了2.95个百分点 [24][26] - 消融实验证实,基于熵的自适应模式切换至关重要,简单的加权方案无法取得良好效果 [24][26] 潜在应用与影响 - 该工作与思维链补全、大语言模型生成检测、推测解码、在线策略蒸馏等多个领域有天然交集,具有发论文和应用潜力 [28] - 提示解码技术可应用于蒸馏当前不开放思维链、只返回输出结果的商业模型 [28]