单卡即可微调大模型！内存占用仅1/8，性能依然拉满 | ICML 2025 - Reportify

单卡即可微调大模型！内存占用仅1/8，性能依然拉满 | ICML 2025

量子位·2025-05-28 10:23

文章核心观点 - 华中科技大学与香港中文大学团队提出名为GOAT的新型低秩适应框架，旨在解决传统LoRA方法性能不及全量微调的难题[3] - GOAT通过自适应奇异值初始化与混合专家梯度对齐策略，在25个多领域任务中实现接近甚至超越全参数微调的效果，同时仅需调整极小比例参数[3] - 该方法在自然语言生成、图像分类、常识推理及自然语言理解等任务上全面领先现有LoRA变体，并大幅降低内存需求与训练成本[18] 技术挑战与现有方法局限 - 传统LoRA方法仅调整0.1%-5%参数，但性能显著落后于全参数微调[6] - 现有SVD初始化方法如PiSSA和MiLoRA仅针对最大或最小奇异值子空间，忽略其他SVD片段，在低秩情况下效果不佳[7] - 混合专家架构虽能提升LoRA表现，但复杂梯度动态使SVD初始化方法面临挑战[6] GOAT框架创新点 - 采用自适应SVD初始化，将预训练权重分解为多段，由MoE路由动态选择最相关奇异值组合以适配不同任务[8][10] - 提出混合专家梯度对齐策略，使LoRA专家等效权重与梯度同全量微调MoE对齐，理论上达成相同性能[11][13] - 理论推导证明当前经验缩放因子过小，并提供模型架构无关的偏差调整机制，通过设置缩放因子s弥补梯度偏移[12][15] 实验性能结果 - 在自然语言生成任务中，GSM8K准确率达60.20%，超越全量微调的59.36%，HumanEval达6.01%，超越其他LoRA变体[17] - 图像分类任务仅用2.24%参数达到全参数微调99%性能，在DTD数据集准确率53.50%，超越主流LoRA变体约6%[17][18] - 常识推理任务平均准确率82.73%，超越ChatGPT的77.01%达7.42%，展现强大知识迁移能力[17][18] - 训练LLaMA7B时内存占用从全参数微调MoE的640GB压缩至35GB，降低8倍，单卡即可训练[18] 实用优势与行业影响 - GOAT无需修改模型架构或训练算法，仅通过初始化与梯度缩放实现性能提升，具备极强实用性[18] - 支持动态调整专家数量与激活比例，在收敛速度与效果间实现平衡，具备灵活扩展性[18] - 该优化方法有望在后训练阶段提供指导，并为预训练场景开辟新思路，进一步释放AI性能潜能[19]

单卡即可微调大模型！内存占用仅1/8，性能依然拉满 | ICML 2025 - Reportify