核心观点 - LoRI技术通过大幅减少LoRA的可训练参数(仅5%),在数学推理、代码生成、安全对齐及自然语言理解任务上匹配或超越全量微调、标准LoRA和DoRA的性能 [1] - LoRI冻结低秩矩阵A并采用任务特定稀疏掩码训练矩阵B,通过校准过程保留关键元素,实现90%稀疏度下仍保持性能 [4] - 在Llama-3-8B和Mistral-7B模型上,LoRI-S(0.05%参数)比LoRA减少95%可训练参数,HumanEval任务性能提升17.3% [9][17] 技术原理 - LoRI将权重更新分解为低秩矩阵,固定随机投影矩阵A,仅稀疏训练矩阵B,显著降低参数干扰 [4][13] - 通过幅度选择校准提取稀疏掩码,保留B中最高幅度元素,实现跨任务参数隔离 [4] - 与IA3的区别:IA3学习缩放向量调整激活函数,而LoRI基于低秩矩阵分解并应用固定稀疏掩码 [15][16] 性能表现 - 单任务测试:LoRI-D(0.54%参数)在8项NLU任务平均得分87.3,超越LoRA(87.1)和DoRA(87.1) [19] - 代码生成:Llama-3-8B上LoRI-D在HumanEval的Pass@10达63.2%,显著高于LoRA(50.8%) [19] - 安全对齐:LoRI-S在HEx-PHI任务得分95.9%,优于LoRA(91.6%)和DoRA(93.6%) [19] 多任务应用 - 适配器合并:LoRI串联融合方案在异构任务(NLU/数学/代码/安全)中性能接近单任务基线,干扰最小化 [20] - 持续学习:LoRI-S通过90%稀疏掩码实现安全对齐遗忘率最低,安全→NLU任务中参数隔离效果显著 [22] - 两阶段训练:先安全对齐后任务适配的策略使LoRI在保持安全性的同时提升下游任务表现 [22] 实验设置 - 基准模型:Llama-3-8B(8.03G参数)和Mistral-7B(7.24G参数) [17][19] - 硬件配置:8块NVIDIA A5000 GPU完成所有实验 [17] - 对比方法:全量微调(FFT)、标准LoRA(1%参数)、DoRA(1.05%参数) [19]
LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
机器之心·2025-05-02 12:39