Self-Distillation
搜索文档
2026开年关键词:Self-Distillation,大模型真正走向「持续学习」
机器之心· 2026-02-10 11:46
大模型持续学习的技术瓶颈与范式转变 - 基础模型在落地和长期使用过程中面临“持续学习”的关键瓶颈,即如何在吸收新知识的同时不丢失已有核心能力[3] - 传统的强教师依赖范式因成本高、数据依赖性强,难以适应高频的持续进化需求[3] - Self-Distillation(自蒸馏)成为破局点,通过上下文引导或反馈机制,让模型构建出比当前更聪明的临时自我,实现内生增长[3] 自蒸馏微调解决灾难性遗忘 - 研究提出自蒸馏微调方法,直接从演示中实现基于策略的学习[8] - 核心机制是利用预训练模型的上下文学习潜力,先通过少量专家演示诱导模型生成高质量的教师分布,再让模型通过自蒸馏拟合该分布[11] - 该方法将持续学习转化为策略内对齐问题,训练信号源于模型自身的上下文学习状态,能最大限度保持原始概率流分布,避免参数剧烈漂移,从而解决监督微调中常见的灾难性遗忘问题[11] - 在技能学习和知识获取任务中,自蒸馏微调的表现一致优于监督微调,不仅实现了更高的新任务准确率,还显著减少了灾难性遗忘[14] - 在顺序学习实验中,自蒸馏微调使单一模型能够随时间累积多种技能而不会出现性能退化[14] 自蒸馏策略优化提升强化学习效率 - 针对强化学习中二值反馈信息密度低、导致信用分配问题和进化停滞的困境,研究提出了自蒸馏策略优化框架[16] - 核心机制是引入富反馈环境,当模型生成错误答案时,环境返回具体报错信息,模型将这些信息作为“自省教师”重新注入上下文以校准错误[19] - 技术突破在于将原本模糊的标量奖励转化为Token级的密集监督信号,通过对比反馈后分布与初始分布的差异,精准定位导致失败的关键Token[19] - 在极难任务中,自蒸馏策略优化展现了极高的采样效率,仅需约三分之一的尝试次数即可达到其他算法的解发现率,实现了3倍的加速[21] - 在整体训练上,该方法能以更少的样本量快速收敛,在k=1000时已能解决70%的困难任务[21] - 在LiveCodeBench等竞赛级编程测试中,自蒸馏策略优化仅需传统GRPO算法四分之一(1/4)的生成样本量即可达到同等精度[21] 策略内自蒸馏挖掘模型推理潜力 - 针对复杂推理任务中搜索空间过大、奖励信号稀疏的问题,研究提出了策略内自蒸馏框架[22] - 核心机制是将模型配置为两种状态:教师策略可接触特权信息以产生高质量分布,学生策略仅凭题目作答[25] - 技术突破是采用策略内采样,训练目标是最小化学生分布与教师分布之间的KL散度,迫使模型通过内生分布对齐,学会从题目直接推导深度推理链路[25] - 在MATH和GSM8K等高难度推理基准测试中,策略内自蒸馏展现了极高的学习效率,其Token利用率比传统的GRPO算法高出4至8倍[27] - 实验证明,监督微调能提供初始方向,但策略内自蒸馏能更进一步挖掘模型内在的“推理潜力”[27] 自蒸馏成为大模型后训练标准配置 - 三项研究的核心逻辑一致:利用模型已有的内生能力,通过不同的上下文构造“信息差”,实现自驱动的闭环升级[27] - Self-Distillation正在成为大模型后训练阶段的标准配置[27] - 行业趋势表明,未来可能不再需要外部强教师教模型变强,而是为其提供“持续学习”的机会[28]