自蒸馏微调（SDFT） - 财报，业绩电话会，研报，新闻

自蒸馏微调（SDFT）

搜索文档

36氪· 2026-02-02 19:40

核心观点 - 麻省理工学院团队提出了一种名为自蒸馏微调（SDFT）的创新方法，该方法使人工智能模型在持续学习新技能时，能够实现几乎“零遗忘”的能力积累，为实现“终身学习”的AI系统提供了新路径 [1] 技术原理与机制 - SDFT旨在解决持续学习中的“灾难性遗忘”难题，该方法通过让模型同时扮演“教师”和“学生”双重角色，利用模型自身的上下文学习能力，将静态的专家示范转化为动态的策略内训练信号 [2][4] - 核心机制是模型作为“教师”时基于任务输入与专家示范生成更优的输出分布，作为“学生”时仅根据任务输入回应，并通过自我蒸馏最小化两者输出分布之间的逆KL散度，从而实现策略内学习 [4][7] 实验效果与性能 - 在技能学习实验中，SDFT在科学问答、工具使用与医疗推理等新任务上取得了比传统监督微调（SFT）更高的准确率，体现了更好的分布内泛化能力 [8] - 在多任务持续学习实验中，当同一模型依次学习三项不同技能时，SDFT能够逐步累积能力而不回退，而SFT在开始学习新任务时，早期技能的表现会迅速下降 [8][9][11] - 在知识获取任务中，向模型注入训练时未涵盖的新事实后，SDFT在分布内严格准确率达到89%，优于SFT的80%，且接近使用理想检索的RAG系统性能 [11] - 在需要结合新知识进行推理的分布外问题上，SDFT表现接近完美，而SFT显著落后，表明SDFT能帮助模型将新知识真正整合进内部表征 [11] 关键发现与优势 - 模型规模越大，SDFT的优势越明显，因为该方法高度依赖模型的上下文学习能力，大规模模型能提供更优质的自蒸馏指导信号 [12][14] - SDFT能够在没有显式推理过程数据、仅提供最终答案的情况下有效训练推理模型，避免传统SFT导致的推理行为“崩溃” [14] - 具体数据表明，在Olmo-3-7B-Think模型上，使用SFT后准确率从31.2%降至23.5%，平均生成标记数从4612个降至3273个；而使用SDFT后准确率提升至43.7%，平均生成标记数保持在4180个 [15] - SDFT在不同k值下提升了pass@k指标，表明是真正的技能提升而非熵值下降 [18] 意义、局限与前景 - SDFT与基于奖励的强化学习形成互补，在缺乏明确奖励信号的场景下，可直接利用示范进行高质量初始化，其输出结果可作为后续强化学习微调的优质起点 [16] - 在计算成本上，SDFT单次训练的计算开销约为传统监督微调的2.5倍，但其单阶段一体化训练流程相比多阶段持续学习方法，往往能在更短的总时间内达到更优的综合性能 [16] - SDFT目前面临挑战：效果高度依赖基础模型自身的上下文学习能力；学生模型偶尔会模仿教师产生的特定语言模式；对于需要彻底改变生成模式的任务较为困难 [18] - 未来探索方向包括：将SDFT与强化学习更深度地融合；开发进一步减轻遗忘的辅助技术；将其拓展至非专家示范、含噪声数据等更复杂的持续学习场景 [18]