刚刚，Thinking Machines Lab博客提出在策略蒸馏，Qwen被cue 38次

文章核心观点 - Thinking Machines Lab发布了一项名为“在策略蒸馏”的新训练方法，该方法将强化学习的纠错相关性与监督微调的奖励密度相结合 [1] - 在策略蒸馏能以极低成本超越其他方法，尤其适用于小模型，可使其具备强大的领域性能和持续学习能力 [1] - 该方法在数学推理和内部聊天助手等任务上表现出色，其成本仅为强化学习的一小部分，例如在AIME'24基准测试上达到70%分数所需成本比离策略蒸馏低9-30倍 [27][47][52][53] 训练方法分类与比较 - 后训练学生模型的方法主要分为在策略训练和离策略训练两类 [7] - 在策略训练从学生模型自身采样轨迹并分配奖励，优势在于学生能更直接学会避免错误 [8][12] - 离策略训练依赖于外部来源的目标输出进行模仿学习，常用监督微调完成，但可能导致复合错误 [9][16][17] - 在策略蒸馏结合两者优点，从学生采样轨迹并使用高性能教师模型为每个token评分，提供密集奖励信号 [23][24][28] 在策略蒸馏的技术实现 - 核心使用逐token的反向KL散度作为损失函数，促使学生在每种状态下近似教师行为 [31] - 该方法计算效率高，仅需小型模型进行一次前向传播，且可使用短轨迹训练 [32] - 伪代码实现包括初始化教师客户端、采样轨迹、计算奖励和使用强化学习进行训练四个步骤 [38][43] 数学推理能力训练成果 - 使用Qwen3-32B作为教师模型对Qwen3-8B-Base进行在策略蒸馏，在AIME'24基准测试上达到70%分数 [41][48] - 相比强化学习需要17,920 GPU小时达到67.6%分数，在策略蒸馏仅需1,800 GPU小时即达到74.4%分数 [46][47] - 在策略蒸馏达到相同性能所需的梯度步数比强化学习少7-10倍，对应50-100倍计算效率提升 [76] 个性化与持续学习应用 - 在策略蒸馏可有效用于模型个性化训练，如在公司内部文档上微调后恢复指令遵循能力 [55][69] - 实验显示，在对内部文档进行70-30混合数据微调后，在策略蒸馏几乎完全恢复了IF-eval 85%的原始性能 [69][70] - 该方法支持持续学习，可交替进行“新数据微调”和“蒸馏恢复行为”阶段，使模型保持知识最新状态 [69][85] 数据效率与搜索机制 - 在策略蒸馏可重复使用单个提示进行训练，学习教师完整分布而非记忆单个答案，提高数据效率 [79][80] - 与强化学习在语义策略空间进行搜索不同，在策略蒸馏是学习已发现策略的捷径，无需对中间策略建模 [82][84] - 在策略蒸馏每个回合教授O(N)比特信息（N为token数量），而强化学习仅教授O(1)比特，信息密度显著更高 [71]