低遗憾区间（low - regret region） - 财报，业绩电话会，研报，新闻 - Reportify

低遗憾区间（low - regret region）

搜索文档

Thinking Machines又发高质量博客：力推LoRA，不输全量微调

机器之心· 2025-09-30 18:38

文章核心观点 - LoRA（低秩适配）作为一种参数高效微调方法，在绝大多数后训练场景下，能以远低于全量微调的成本获得几乎同等的效果，这一优势区间被称为“低遗憾区间” [2][18] - 研究系统性地揭示了LoRA与全量微调在不同数据规模、任务类型和应用层上的性能对比关系 [7][16] LoRA的重要性与优势 - LoRA是当前最热门的参数高效微调方法，其核心思想是通过学习一个低维适配器（两个小矩阵A和B）来表示更新，而非直接改动整个模型的权重 [11] - LoRA的优势包括支持多租户部署、低显存需求、快速加载和迁移，使其自2021年诞生以来迅速流行 [13] - 在计算效率上，LoRA只更新低秩矩阵，前向+反向传播的FLOPs大约是FullFT的2/3，能用更少计算量达到相似效果 [38][39] LoRA与全量微调的性能对比 - 在小数据量任务上，LoRA与FullFT几乎没有差距，完全可以对齐 [7][22] - 在大数据量任务上，LoRA的容量不足，承载不了过多新知识，表现会落后于FullFT，这种差距主要体现在训练效率的下降 [7][16][25] - 在强化学习任务中，即使LoRA的秩极低（rank=1），也能达到与FullFT接近的效果，这与强化学习对模型容量需求较低的理论预期一致 [7][17][29] LoRA的关键应用要素 - LoRA的应用位置有讲究，仅加在注意力层并不理想，覆盖所有权重矩阵（尤其是MLP和MoE层）效果更佳 [8][16][26] - LoRA在大批量训练下，性能下降比FullFT更明显，且这种现象无法通过提升LoRA的秩来缓解 [8][16][25] - LoRA的最佳学习率约是FullFT的10倍，且学习率对秩的依赖非常弱，简化了超参数调优 [23][33][35] 实验方法与主要发现 - 研究采用LLaMA 3和Qwen3模型，在Tulu3、OpenThoughts3等数据集上进行有监督微调和强化学习任务测试，并系统调整LoRA的秩（从1到512）[20] - 实验结果表明，在小到中等数据规模下，高秩LoRA的性能几乎与FullFT无差别 [16][22] - 对于超过LoRA容量的数据集，LoRA的损失并不会达到一个无法降低的明显下限，而是会导致更差的训练效率 [25] 理论分析与未来方向 - 从信息论角度分析，在监督学习中，模型大约可存储每个参数2 bits信息；在强化学习中，每个episode约提供1 bit信息，这解释了后者对LoRA容量要求较低的原因 [38] - 未来探索方向包括精准预测LoRA性能差距的条件、建立其学习动态的理论框架、测评LoRA变体表现以及研究其在MoE层的应用方案 [42]

参数高效微调（PEFT）

低遗憾区间（low - regret region）

Artificial Intelligence

Full Fine - tuning (FullFT)

参数高效微调（PEFT）

低遗憾区间（low - regret region）

Artificial Intelligence

Full Fine - tuning (FullFT)