Workflow
自蒸馏微调(SDFT)
icon
搜索文档
“终身自学习”AI来了,MIT提出自蒸馏微调SDFT,从此告别灾难性遗忘
36氪· 2026-02-02 19:40
核心观点 - 麻省理工学院团队提出了一种名为自蒸馏微调(SDFT)的创新方法,该方法使人工智能模型在持续学习新技能时,能够实现几乎“零遗忘”的能力积累,为实现“终身学习”的AI系统提供了新路径 [1] 技术原理与机制 - SDFT旨在解决持续学习中的“灾难性遗忘”难题,该方法通过让模型同时扮演“教师”和“学生”双重角色,利用模型自身的上下文学习能力,将静态的专家示范转化为动态的策略内训练信号 [2][4] - 核心机制是模型作为“教师”时基于任务输入与专家示范生成更优的输出分布,作为“学生”时仅根据任务输入回应,并通过自我蒸馏最小化两者输出分布之间的逆KL散度,从而实现策略内学习 [4][7] 实验效果与性能 - 在技能学习实验中,SDFT在科学问答、工具使用与医疗推理等新任务上取得了比传统监督微调(SFT)更高的准确率,体现了更好的分布内泛化能力 [8] - 在多任务持续学习实验中,当同一模型依次学习三项不同技能时,SDFT能够逐步累积能力而不回退,而SFT在开始学习新任务时,早期技能的表现会迅速下降 [8][9][11] - 在知识获取任务中,向模型注入训练时未涵盖的新事实后,SDFT在分布内严格准确率达到89%,优于SFT的80%,且接近使用理想检索的RAG系统性能 [11] - 在需要结合新知识进行推理的分布外问题上,SDFT表现接近完美,而SFT显著落后,表明SDFT能帮助模型将新知识真正整合进内部表征 [11] 关键发现与优势 - 模型规模越大,SDFT的优势越明显,因为该方法高度依赖模型的上下文学习能力,大规模模型能提供更优质的自蒸馏指导信号 [12][14] - SDFT能够在没有显式推理过程数据、仅提供最终答案的情况下有效训练推理模型,避免传统SFT导致的推理行为“崩溃” [14] - 具体数据表明,在Olmo-3-7B-Think模型上,使用SFT后准确率从31.2%降至23.5%,平均生成标记数从4612个降至3273个;而使用SDFT后准确率提升至43.7%,平均生成标记数保持在4180个 [15] - SDFT在不同k值下提升了pass@k指标,表明是真正的技能提升而非熵值下降 [18] 意义、局限与前景 - SDFT与基于奖励的强化学习形成互补,在缺乏明确奖励信号的场景下,可直接利用示范进行高质量初始化,其输出结果可作为后续强化学习微调的优质起点 [16] - 在计算成本上,SDFT单次训练的计算开销约为传统监督微调的2.5倍,但其单阶段一体化训练流程相比多阶段持续学习方法,往往能在更短的总时间内达到更优的综合性能 [16] - SDFT目前面临挑战:效果高度依赖基础模型自身的上下文学习能力;学生模型偶尔会模仿教师产生的特定语言模式;对于需要彻底改变生成模式的任务较为困难 [18] - 未来探索方向包括:将SDFT与强化学习更深度地融合;开发进一步减轻遗忘的辅助技术;将其拓展至非专家示范、含噪声数据等更复杂的持续学习场景 [18]