Workflow
低遗憾区间(low - regret region)
icon
搜索文档
Thinking Machines又发高质量博客:力推LoRA,不输全量微调
机器之心· 2025-09-30 18:38
文章核心观点 - LoRA(低秩适配)作为一种参数高效微调方法,在绝大多数后训练场景下,能以远低于全量微调的成本获得几乎同等的效果,这一优势区间被称为“低遗憾区间” [2][18] - 研究系统性地揭示了LoRA与全量微调在不同数据规模、任务类型和应用层上的性能对比关系 [7][16] LoRA的重要性与优势 - LoRA是当前最热门的参数高效微调方法,其核心思想是通过学习一个低维适配器(两个小矩阵A和B)来表示更新,而非直接改动整个模型的权重 [11] - LoRA的优势包括支持多租户部署、低显存需求、快速加载和迁移,使其自2021年诞生以来迅速流行 [13] - 在计算效率上,LoRA只更新低秩矩阵,前向+反向传播的FLOPs大约是FullFT的2/3,能用更少计算量达到相似效果 [38][39] LoRA与全量微调的性能对比 - 在小数据量任务上,LoRA与FullFT几乎没有差距,完全可以对齐 [7][22] - 在大数据量任务上,LoRA的容量不足,承载不了过多新知识,表现会落后于FullFT,这种差距主要体现在训练效率的下降 [7][16][25] - 在强化学习任务中,即使LoRA的秩极低(rank=1),也能达到与FullFT接近的效果,这与强化学习对模型容量需求较低的理论预期一致 [7][17][29] LoRA的关键应用要素 - LoRA的应用位置有讲究,仅加在注意力层并不理想,覆盖所有权重矩阵(尤其是MLP和MoE层)效果更佳 [8][16][26] - LoRA在大批量训练下,性能下降比FullFT更明显,且这种现象无法通过提升LoRA的秩来缓解 [8][16][25] - LoRA的最佳学习率约是FullFT的10倍,且学习率对秩的依赖非常弱,简化了超参数调优 [23][33][35] 实验方法与主要发现 - 研究采用LLaMA 3和Qwen3模型,在Tulu3、OpenThoughts3等数据集上进行有监督微调和强化学习任务测试,并系统调整LoRA的秩(从1到512)[20] - 实验结果表明,在小到中等数据规模下,高秩LoRA的性能几乎与FullFT无差别 [16][22] - 对于超过LoRA容量的数据集,LoRA的损失并不会达到一个无法降低的明显下限,而是会导致更差的训练效率 [25] 理论分析与未来方向 - 从信息论角度分析,在监督学习中,模型大约可存储每个参数2 bits信息;在强化学习中,每个episode约提供1 bit信息,这解释了后者对LoRA容量要求较低的原因 [38] - 未来探索方向包括精准预测LoRA性能差距的条件、建立其学习动态的理论框架、测评LoRA变体表现以及研究其在MoE层的应用方案 [42]