Workflow
参数高效微调(PEFT)
icon
搜索文档
这些大神在Meta的论文看一篇少一篇了
36氪· 2025-11-17 17:52
研究核心观点 - 研究团队揭示了大模型强化学习训练中的一个关键现象:尽管强化学习能带来巨大的性能提升,但其参数更新却极为稀疏,这背后是由一种固定的模型条件优化偏差机制所驱动[1][3] - 团队提出了“三门理论”来解释RLVR训练的内在机制,阐明参数更新如何被约束、引导并最终定位到特定的参数区域[3][7] 参数更新稀疏性发现 - 对包括Qwen系列和DeepSeek-R1-Distill-Qwen在内的多个开源模型的分析显示,经过超过3000步长时间RL训练后,RL参数更新的稀疏度高达36%到92%,而监督微调的稀疏度仅为0.6%到18.8%,相差一个数量级[5][6] - 具体数据显示,Qwen3-30B-A3B模型经过GRPO算法在数学数据上训练后,稀疏度达到91.7%;而Qwen3-8B-Base模型的SFT稀疏度仅为0.6%[6] 三门理论机制解析 - 第一门KL锚定机制通过策略梯度更新的KL界限确保每步相对于当前策略的漂移很小,限制了参数的移动范围,即使在无显式KL正则项的DAPO算法中,比例裁剪技巧仍会施加O(ε²)的KL界限[8] - 第二门模型几何机制指出预训练模型具有高度结构化的几何特性,在KL约束下,RL更新倾向于保持模型的原始权重结构,自然偏向于优化景观中的低曲率方向[9] - 第三门精度过滤机制揭示bfloat16的有限精度只有7位尾数,小于单位最低位阈值的变化无法表示,导致在RL不愿施加大改变区域的微小更新被隐藏,表现为稀疏性[11] 实验验证与发现 - 通过奇异值分解分析发现,RL更新与主成分权重的重叠度始终低于随机水平,表明RL强烈倾向于避开这些权重,而与低幅度权重显示出超随机的重叠[11] - 因果性验证实验通过正交旋转和头部置换故意扰乱模型几何结构,结果显示在被干预的层中更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差的来源[13] - 光谱分析表明RLVR检查点在顶部主成分内表现出明显稳定的谱,跨层的主子空间旋转一致较小,谱漂移最小,奇异值曲线几乎与基础模型相同[14] 对参数高效微调方法的启示 - 研究发现许多SFT时代的参数高效微调方法在RLVR中迁移效果很差,仅更新主成分权重会产生最差的优化轨迹,KL曲线上升缓慢,显示过度干预和退化的训练动态[17] - 对于LoRA变体,主成分定向的PiSSA在用于匹配全参数性能的较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及RLVR倾向于避免的高曲率区域[17]
NeurIPS2025 Spotlight | RobustMerge: 多模态大模型高效微调模型合并的全新范式
机器之心· 2025-11-10 12:40
核心观点 - 研究团队针对参数高效微调模块合并性能不佳的问题,提出了“方向鲁棒性”概念,指出根本原因是“方向不鲁棒”而非传统认为的“符号冲突”[7][8][10] - 团队提供了一个名为RobustMerge的解决方案,该方案无需额外成本且简单高效,能显著提升PEFT模块合并性能[2][10][17] - 该方法为构建快速适应多任务、节省计算资源的AI系统提供了关键技术支持,并已在顶级会议NeurIPS 2025上被评为Spotlight论文[2][3] 问题定义与挑战 - 多模态大模型参数规模巨大,全量微调成本过高,使得参数高效微调成为主流选择[7] - LoRA等PEFT方法虽能快速适应单一任务,但缺乏将多个专家模型有效合并为通用模型的能力[7] - 传统多任务学习存在训练成本高和数据隐私两大问题,而直接将FFT时代的模型合并方法用于PEFT模块时效果显著下降[7][8] 技术原理与发现 - LoRA模块参数分布更广且奇异值存在显著差异,导致合并时尾部奇异值方向不稳定[12][14] - 头部奇异值代表任务特定知识,方向稳定;尾部奇异值代表通用知识,方向敏感易变[14][15] - 成功的PEFT合并关键在于保护低秩空间中每个奇异向量的方向,特别是奇异值较小的向量[16][17] RobustMerge方法 - 采用两阶段策略:修剪与参数互补缩放、跨任务归一化,整个过程无需训练[17][19][23] - 第一步通过修剪无效参数和参数互补缩放,自适应增强尾部奇异值方向稳定性[19][20][21][22] - 第二步通过跨任务归一化平衡不同任务缩放系数,确保泛化性能不受数据量差异影响[23][24] - 最终将调整后的PEFT模块进行加权融合,得到具备多任务知识的通用模型[25][26] 实验结果 - 在自建基准MM-MergeBench上测试,包含8个已见任务和4个未见任务[28] - 在已见任务上平均准确率相较传统方法提升3.4%,在未见任务上平均性能提升4.5%[29][31] - 在POPE、MME等通用能力基准上也取得领先结果,POPE达87.2,MME达1494.9[32][33] - 通过方向相似性和奇异值保留比率量化验证了方法能有效维持小奇异值向量的方向和幅度[35][36][38] 应用价值与前景 - 可应用于多任务模型快速部署,帮助企业将多个业务场景的LoRA模块融合为全能模型,降低服务成本[44][45] - 适用于联邦学习和持续学习场景,在保护数据隐私的前提下实现模型迭代[44][45] - 其方向鲁棒性的核心思想具有强普适性,可扩展至推荐系统、多模态数据分析等多个领域[42][43]
ChatGPT架构师,刚发布了最新研究成果
量子位· 2025-09-30 20:22
研究核心观点 - Thinking Machines发布第三篇研究博客,核心作者为OpenAI联创John Schulman,OpenAI前CTO Mira Murati为其转发站台[1] - 研究证实LoRA参数高效微调方法在抓准关键细节后,不仅能与全量微调拥有相同的样本效率,还能达到一样的最终性能[7] - 研究给出了大幅降低LoRA调参难度的简化方案[3][22] 研究背景与问题 - 当前主流大模型参数达万亿级别,预训练数据达数十万亿token,但下游任务通常只需小数据集且聚焦特定领域[6] - 全量微调更新所有参数会导致资源浪费严重,而LoRA作为参数高效微调方法,通过低秩矩阵捕捉微调信息,但始终面临能否追上全量微调性能的争议[7] 核心研究发现 - 在中小数据集微调场景下,高秩LoRA(如秩512)的学习曲线与全量微调几乎完全重合,损失值均随训练步数呈对数线性下降[9][11] - 仅在数据集规模远超LoRA自身容量的极端情况下,其训练效率才会出现下滑,但这种情况在多数后训练场景中极少出现[11] - 在数学推理类强化学习任务中,即便将LoRA的秩降低至1,其性能依旧能与全量微调持平,因为强化学习每轮训练仅需依靠scalar优势函数吸收O(1)比特信息,秩1 LoRA的参数容量已满足需求[13][14] LoRA应用优化策略 - LoRA应用需实现全层覆盖而非仅聚焦注意力层,因为模型梯度的主导权掌握在参数数量更多的层手中[15][21] - 仅作用于注意力层的LoRA表现明显落后,即便提升秩来匹配参数量,性能差距依然显著[16][17] - 当LoRA应用于模型所有层(尤其是参数占比最高的MLP层与MoE层)时,性能得到极大提升,仅在MLP层单独应用LoRA效果就与组合应用相差无几[19] 调参简化方案 - LoRA的最优学习率存在明确规律,始终约为全量微调的10倍,这一比例在14个不同模型的测试中几乎保持恒定[12][22] - 得益于1/r缩放因子的作用,不同秩LoRA的最优学习率差异极小,在秩4至秩512范围内变化幅度不足2倍,短期训练任务中甚至可忽略秩对最优学习率的影响[22] - LoRA的4个潜在超参数中有2个属于冗余参数,实际调试只需重点关注"初始更新规模"与"A矩阵偏离初始状态的步数"两个维度,这将调参难度降低了一半[25][26] 作者背景 - 研究核心作者John Schulman为OpenAI联创,在OpenAI工作9年期间领导了从GPT-3.5到GPT-4o的一系列对齐/后训练工作,被誉为ChatGPT架构师[27][28] - John Schulman学术引用近14万,其代表作PPO算法是ChatGPT核心技术RLHF中选用的强化学习算法[29] - John Schulman现以首席科学家身份加入Thinking Machines,旨在回归核心技术领域[30]
Thinking Machines又发高质量博客:力推LoRA,不输全量微调
机器之心· 2025-09-30 18:38
文章核心观点 - LoRA(低秩适配)作为一种参数高效微调方法,在绝大多数后训练场景下,能以远低于全量微调的成本获得几乎同等的效果,这一优势区间被称为“低遗憾区间” [2][18] - 研究系统性地揭示了LoRA与全量微调在不同数据规模、任务类型和应用层上的性能对比关系 [7][16] LoRA的重要性与优势 - LoRA是当前最热门的参数高效微调方法,其核心思想是通过学习一个低维适配器(两个小矩阵A和B)来表示更新,而非直接改动整个模型的权重 [11] - LoRA的优势包括支持多租户部署、低显存需求、快速加载和迁移,使其自2021年诞生以来迅速流行 [13] - 在计算效率上,LoRA只更新低秩矩阵,前向+反向传播的FLOPs大约是FullFT的2/3,能用更少计算量达到相似效果 [38][39] LoRA与全量微调的性能对比 - 在小数据量任务上,LoRA与FullFT几乎没有差距,完全可以对齐 [7][22] - 在大数据量任务上,LoRA的容量不足,承载不了过多新知识,表现会落后于FullFT,这种差距主要体现在训练效率的下降 [7][16][25] - 在强化学习任务中,即使LoRA的秩极低(rank=1),也能达到与FullFT接近的效果,这与强化学习对模型容量需求较低的理论预期一致 [7][17][29] LoRA的关键应用要素 - LoRA的应用位置有讲究,仅加在注意力层并不理想,覆盖所有权重矩阵(尤其是MLP和MoE层)效果更佳 [8][16][26] - LoRA在大批量训练下,性能下降比FullFT更明显,且这种现象无法通过提升LoRA的秩来缓解 [8][16][25] - LoRA的最佳学习率约是FullFT的10倍,且学习率对秩的依赖非常弱,简化了超参数调优 [23][33][35] 实验方法与主要发现 - 研究采用LLaMA 3和Qwen3模型,在Tulu3、OpenThoughts3等数据集上进行有监督微调和强化学习任务测试,并系统调整LoRA的秩(从1到512)[20] - 实验结果表明,在小到中等数据规模下,高秩LoRA的性能几乎与FullFT无差别 [16][22] - 对于超过LoRA容量的数据集,LoRA的损失并不会达到一个无法降低的明显下限,而是会导致更差的训练效率 [25] 理论分析与未来方向 - 从信息论角度分析,在监督学习中,模型大约可存储每个参数2 bits信息;在强化学习中,每个episode约提供1 bit信息,这解释了后者对LoRA容量要求较低的原因 [38] - 未来探索方向包括精准预测LoRA性能差距的条件、建立其学习动态的理论框架、测评LoRA变体表现以及研究其在MoE层的应用方案 [42]
LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
机器之心· 2025-05-02 12:39
核心观点 - LoRI技术通过大幅减少LoRA的可训练参数(仅5%),在数学推理、代码生成、安全对齐及自然语言理解任务上匹配或超越全量微调、标准LoRA和DoRA的性能 [1] - LoRI冻结低秩矩阵A并采用任务特定稀疏掩码训练矩阵B,通过校准过程保留关键元素,实现90%稀疏度下仍保持性能 [4] - 在Llama-3-8B和Mistral-7B模型上,LoRI-S(0.05%参数)比LoRA减少95%可训练参数,HumanEval任务性能提升17.3% [9][17] 技术原理 - LoRI将权重更新分解为低秩矩阵,固定随机投影矩阵A,仅稀疏训练矩阵B,显著降低参数干扰 [4][13] - 通过幅度选择校准提取稀疏掩码,保留B中最高幅度元素,实现跨任务参数隔离 [4] - 与IA3的区别:IA3学习缩放向量调整激活函数,而LoRI基于低秩矩阵分解并应用固定稀疏掩码 [15][16] 性能表现 - 单任务测试:LoRI-D(0.54%参数)在8项NLU任务平均得分87.3,超越LoRA(87.1)和DoRA(87.1) [19] - 代码生成:Llama-3-8B上LoRI-D在HumanEval的Pass@10达63.2%,显著高于LoRA(50.8%) [19] - 安全对齐:LoRI-S在HEx-PHI任务得分95.9%,优于LoRA(91.6%)和DoRA(93.6%) [19] 多任务应用 - 适配器合并:LoRI串联融合方案在异构任务(NLU/数学/代码/安全)中性能接近单任务基线,干扰最小化 [20] - 持续学习:LoRI-S通过90%稀疏掩码实现安全对齐遗忘率最低,安全→NLU任务中参数隔离效果显著 [22] - 两阶段训练:先安全对齐后任务适配的策略使LoRI在保持安全性的同时提升下游任务表现 [22] 实验设置 - 基准模型:Llama-3-8B(8.03G参数)和Mistral-7B(7.24G参数) [17][19] - 硬件配置:8块NVIDIA A5000 GPU完成所有实验 [17] - 对比方法:全量微调(FFT)、标准LoRA(1%参数)、DoRA(1.05%参数) [19]