Workflow
线性模式连通性
icon
搜索文档
ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
机器之心· 2025-07-26 20:17
常规 LoRA 训练的隐藏缺陷 - 参数高效微调技术是预训练大模型在下游任务应用的关键技术,但 LoRA 仍面临训练不稳定、模型融合效果差、剪枝后性能下降等问题 [4] - LoRA 优化过程常陷入初始化点附近的次优解,限制模型泛化能力 [7] - 梯度更新集中在模型顶层适配器,导致底层适配器训练不足 [7] - 多个 LoRA 模型融合和剪枝等下游操作困难,效果不佳 [7] CoTo 策略的核心思想 - 采用渐进式激活策略,训练初期以较高概率随机失活部分 LoRA 适配器,迫使梯度更均匀流向所有层级 [5] - 训练中后期线性提高适配器激活概率,直到所有适配器完全参与训练 [8] - 该策略促进层级间均衡优化,提升模型线性模式连通性和 Dropout 稳定性 [8] CoTo 的实验结果 - 在常识推理与图像分类任务中,CoTo 模型展现优越的线性模式连通性,性能过渡平滑高效 [13] - 在 GLUE 数据集上,基于 LLaMA-2 和 DeBERTa-v3 模型的 CoTo 训练 LoRA 模块多任务合并准确率稳定超越基线 [13] - CoTo 增强模型剪枝容错能力,在结构化和非结构化剪枝中性能全面超越标准 LoRA [17] CoTo 的性能与效率 - 在视觉、语言和数学推理等多个领域基准测试中,CoTo 稳定提升多种 LoRA 变体性能 [24] - 在 HiRA 上应用 CoTo 可实现超 24% 的训练加速 [24] - 代码实现简洁,只需对现有 LoRA 训练流程做三步改动即可应用 [22] CoTo 的总结 - 通过渐进式训练策略有效解决 LoRA 训练中的层级不平衡和优化问题 [23] - 提升模型单任务泛化能力,增强 LoRA 适配器可组合性与鲁棒性 [23] - 无需修改模型架构,可作为即插即用模块与各类 LoRA 方法无缝集成 [23]