名师一定出高徒？清华团队最新揭秘：别再迷信大模型蒸馏的「免费午餐」

On-Policy Distillation (OPD) 技术现象与核心法则 - 在当下大模型后训练流程中，On-Policy Distillation 已成为明星技术，业界如Qwen3、MiMo、GLM-5等模型采用后报告了巨大性能提升，其提供了密集的Token级别监督信号[3] - 研究发现了反直觉现象：使用更强的教师模型，学生模型的性能可能毫无提升甚至倒退，表明大模型时代的蒸馏并非简单的“大力出奇迹”[4] - 决定蒸馏成败的两大核心法则是思维模式一致性与高分不等于新知识[9] - 思维模式一致性法则：学生与教师的初始思维模式接近性至关重要，例如弱Base模型Qwen3-1.7B-Base与经过GRPO训练的Qwen3-4B-Base-GRPO教师因思维模式更近而取得显著提升，早期错配后续难弥补[9] - 高分不等于新知识法则：仅参数更大、分数更高的同pipeline教师提升有限，而经过额外强化学习后训练的教师能恢复更多师生能力差距，例如在DeepSeek家族中，经过RL的教师模型能力差距恢复达16.9%，而仅同pipeline蒸馏的教师仅5.3%；在Qwen家族中，此差距达58.6%对15.6%[11] - 极端“反向蒸馏”实验表明，学生向更大参数但同源的教师学习，效果与向自己前序版本学习几乎一样，都导致能力倒退，说明大参数模型未提供更多可学习信息，OPD本质是提取并复刻教师的思维模式[13] OPD成功与失败的Token级别机制 - 成功的蒸馏表现为学生与教师模型预测Token重叠率稳步上升，从72%攀升至91%以上，同时两者的熵差距迅速缩小[15] - 失败的蒸馏中，上述指标从头到尾基本无变化[15] - 核心优化引擎是师生共同看好的高概率Token（重叠区域），仅对这些重叠Token计算损失，蒸馏性能几乎不打折扣，而非重叠Token对优化几乎无贡献[16][17] 提升失败蒸馏效果的实用方法 - 方法一：教师Rollout上进行Off-Policy冷启动：在开始OPD前，先让学生模型在教师生成的rollout上进行一轮轻量级监督微调，以直接拉高初始Token重叠率，使后续OPD训练顺利启动并超越纯OPD基线性能[19] - 方法二：使用与教师对齐的提示词：让OPD训练使用更接近教师训练分布的提示词，包括模板和内容层面的对齐，这能进一步提升准确率和重叠率增长，但需混用部分分布外提示词以避免学生模型熵值过早坍塌[21] OPD技术的局限性与根本张力 - OPD的密集奖励信号质量会随生成轨迹深度急剧衰减，在长达15K token的响应中观察到“从后向前的熵崩塌”，教师在后半段给出的奖励变成噪音，导致训练坍塌，因此目前难以直接扩展到长思维链或多轮智能体场景[25] - 存在密集监督与监督可靠性之间的根本性张力[25] - 全局有用的奖励信号不代表局部能被有效优化，失败教师给出的全局奖励区分能力可能与成功教师相近，但局部优化几何结构可能平坦，导致无法有效传递信息[27] 对教师模型能力的重新认识 - 在OPD中，更强的教师模型不自动等于更会教，高分也不自动等于新知识[31] - 大模型知识蒸馏的核心不是简单的能力灌输，而是传递一种思维路径和局部偏好的组织方式[31] - 关键问题在于教师与学生是否使用同一种“语言”，以及教师带来的监督信号能否在学生当前的位置上转化为有用的梯度[32]