中心化对数似然（CLL） - 财报，业绩电话会，研报，新闻

中心化对数似然（CLL）

搜索文档

机器之心· 2026-03-25 15:44

文章核心观点 - 微软与东南大学联合提出了一种新的大语言模型后训练方法，旨在通过量化监督微调与强化学习在数据层面的差距，并利用域内微调和提示解码等技术，实现以接近监督微调的效率和资源消耗，达到甚至超越强化学习的效果 [2][3][24] 大语言模型后训练的现状与挑战 - 监督微调利用高质量的离线数据快速注入知识，但受限于静态数据分布，泛化能力容易触及天花板并可能引发灾难性遗忘 [2] - 强化学习允许模型在探索中自我迭代，上限极高，但存在训练不稳定、计算资源消耗巨大等痛点 [2] 核心理论与量化指标 - 研究指出，传统困惑度或对数概率指标会混淆“题目本身难度”与“数据分布偏移”，引入了大量“噪声方差” [6] - 研究提出“中心化对数似然”作为量化指标，该指标等于Token的对数概率加上当前上下文的预测熵，被证明在信噪比意义下具有最优性，能有效区分模型自身生成的数据与其他来源数据 [6][7][11] - 该理论几乎没有任何偏离大语言模型场景的假设，可直接进行实验验证 [9] 提出的新方法：域内微调 - 传统监督微调假设训练集中的每个词都是绝对“真理”，对预测错误施加严厉惩罚，导致在遇到噪声或分布外数据时可能引发灾难性遗忘 [12][13] - 域内微调放弃了强硬的盲目拟合，基于中心化对数似然指标引入自适应调节机制，以更温和的方式更新模型参数 [14][17] 提出的新方法：提示解码 - 简单的自我蒸馏方法生成的数据，对人眼而言很像模型分布，但对模型训练来说仍是离线数据 [20] - 提示解码在自我蒸馏和正常解码之间进行基于熵的自适应模式切换：当教师模型认为当前Token确定性极高时增加其比重，否则交给学生模型保持，从而有效提升了生成数据的分布指标 [22] 实验效果与效率 - 在Qwen2.5-7B、Qwen2.5-7B-instruct和DeepSeek-R1-distill-Qwen-7B等模型上的实验表明，新方法在多项评测中超越了知名的离线强化学习算法 [24] - 新方法使用的计算资源远低于强化学习算法，例如在Qwen2.5-7B-instruct模型上，提示解码结合监督微调仅需139.6 GPU小时，而DPO@16需要197.6 GPU小时，Rej@16需要191.2 GPU小时 [24] - 在Qwen2.5-7B-instruct模型上，提示解码结合监督微调在数学评测集上的得分达到36.63%，相比原始模型的33.48%提升了2.95个百分点 [24][26] - 消融实验证实，基于熵的自适应模式切换至关重要，简单的加权方案无法取得良好效果 [24][26] 潜在应用与影响 - 该工作与思维链补全、大语言模型生成检测、推测解码、在线策略蒸馏等多个领域有天然交集，具有发论文和应用潜力 [28] - 提示解码技术可应用于蒸馏当前不开放思维链、只返回输出结果的商业模型 [28]

域内微调（IDFT）

提示解码（Hinted Decoding）

提示解码（Hinted Decoding）