刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

文章核心观点 - Thinking Machines Lab (TML) 发布了一项名为“在策略蒸馏”的新训练方法，该方法将强化学习的纠错相关性与监督微调的奖励密度相结合 [1] - 该方法能以极低的成本超越其他训练方法，尤其适用于小模型，可使其具备强大的领域性能和持续学习能力 [1][17] - TML明确表示其新成果受到Qwen团队研究的启发，并在实验过程中大量使用了Qwen3系列模型 [3] 技术方法概述 - 在策略蒸馏的核心思想是从学生模型中采样轨迹，并使用高性能教师模型为每个轨迹的每一个token评分，从而结合在策略训练的优势和密集奖励信号 [15] - 该方法使用反向KL散度作为损失函数，促使学生在自身所处的每种状态下近似教师行为，且该奖励是“不可破解的”和“寻找众数”的 [19][20] - 实现过程包括初始化教师客户端、从学生模型采样轨迹、计算教师模型对采样token的对数概率以计算反向KL奖励，并利用强化学习的训练框架进行模型更新 [25][26][27][28] 性能与成本优势 - 在数学推理任务上，从40万SFT检查点开始，在策略蒸馏仅用约150步就在AIME'24基准上达到70%的分数，而离策略蒸馏估计需要200万个提示才能达到相似性能 [32][35] - 与强化学习相比，在策略蒸馏以十分之一的成本在AIME'24上取得了74.4%的更高分数，而强化学习需要17,920个GPU小时才达到67.6% [34] - 在计算效率上，当SFT数据集是现成或可摊销时，在策略蒸馏比基线成本降低9倍；若无现成数据集，总成本可降低约30倍 [40][41] - 从相同初始化开始，在策略蒸馏学习强化学习训练策略所需的梯度步数少7-10倍，对应50-100倍的计算效率提升 [58] 应用案例：数学推理 - 使用Qwen3-8B-Base作为学生模型，Qwen3-32B作为教师模型进行在策略蒸馏，在AIME'24数学基准上取得显著提升 [30][34][35] - 仅使用单个提示连续训练20步，在策略蒸馏也能达到与教师模型相当的性能，展示了极高的数据重用效率 [61] 应用案例：个性化与持续学习 - 在公司内部助手训练中，中训练新知识会降低模型原有的指令遵循能力，混入30%聊天数据仍无法维持IF-eval上的原始性能 [45][47] - 在策略蒸馏能有效恢复指令遵循能力，在对内部文档微调后，几乎完全恢复IF-eval性能至83%，且未损失知识，内部QA评估分数从36%提升至41% [53][54] - 该方法适用于持续学习，可交替进行“在新数据上微调”和“蒸馏以恢复行为”的阶段，使模型能持续学习并保持知识最新状态 [53][66] 方法比较与行业意义 - 后训练方法主要包括离策略蒸馏、强化学习以及在策略蒸馏，三者在采样方式和奖励信号密度上存在差异 [18] - 在策略蒸馏结合了在策略训练的可靠性能和密集奖励信号的成本效益，是达到前沿模型能力的关键部分 [70] - 该方法为从业者提供了一种廉价而强大的工具，用于训练具备专家级性能的小型模型，并支持持续学习和个性化 [17][70]