Workflow
Token自适应Loss重加权 (TALR)
icon
搜索文档
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
机器之心· 2025-10-21 11:43
研究核心观点 - 领域特定的监督微调(SFT)并不总是会严重削弱大模型的通用能力,灾难性遗忘问题更多源于训练策略的选择而非SFT范式本身 [2] - 采用更小的学习率进行SFT,可以在保持目标领域性能的同时,大幅缓解模型在数学推理、代码生成、指令跟随等通用能力上的退化 [2] - 研究团队提出了Token自适应Loss重加权(TALR)方法,进一步优化了在较大学习率下领域性能与通用能力之间的平衡 [19][20] 实验设计与设置 - 实验选取了两个现实强相关的领域和数据集:MedCalc(医疗推理,10.1k训练/1.05k测试)和ESCI(电商商品多分类,49k训练/10k测试)[5][8] - 使用了多种规模的开源LLM进行实验,包括Qwen3-8B、Qwen2.5-7B、Gemma3-4B等Instruct模型 [6] - 核心控制变量为学习率,设置了1e-6、5e-6、2e-5三档,其他训练超参遵循常规SFT实践 [6] - 在MetaMathQA(395k训练样本)大规模数学推理数据集上进行了补充实验,采用DeepSeek-Coder-7B作为基础模型 [12][14] 关键研究发现 - 更小的学习率(如1e-6)能带来更优的性能折中,在MedCalc和ESCI任务上,模型在保持目标领域强性能的同时,显著减轻了通用能力的下降 [11] - 对于仅需最终标签的分类问题(如ESCI w/o CoT),实现理想折中的学习率范围更宽,5e-6的学习率表现与1e-6相当 [12] - 即便在大规模数据集MetaMathQA上,更小的学习率(5e-6)也能在保持数学领域性能的同时,显著缓解模型原有编码能力的退化 [14] - 理论分析表明,较小的学习率能够严格收紧通用性能下降的上界,而训练目标仅包含最终标签时,模型遇到的“难token”数量减少,从而拓宽了可接受的学习率范围 [15][17] TALR方法及其效果 - TALR通过建立约束优化问题,根据每个token的预测概率自适应分配权重,置信度低(概率小)的token权重更小,以削弱这些hard token在训练中的过度梯度贡献 [20][21] - 在MedCalc基准上的实验显示,当学习率较大(5e-6)时,TALR相比L2正则化、LoRA、Wise-FT等方法,能实现更优的Pareto前沿,在保持领域增益的同时显著减少通用性能损失 [26] - TALR在训练中自发呈现出“课程学习”机制,由易到难动态调整学习路径,优先通过高置信度token驱动优化,再逐步纳入难点token [32] 行业影响与展望 - 研究重申了SFT作为大模型能力提升基石的重要性,挑战了“RL可以解决一切”的行业观点,指出高质量的SFT是RL有效发挥作用的先决条件 [34] - 该工作为更好的领域适配提供了重要启发,特别是在医学等专业场景中,如何在注入领域知识的同时保留基础模型的通用能力是关键方向 [35] - 未来研究需探索更强大的缓解策略,以在必须使用大学习率追求最高领域性能的场景下,更好地兼顾通用能力,同时需在更大规模模型和更广泛数据集上进行验证 [27][35]