Workflow
持续多模态指令微调
icon
搜索文档
ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
机器之心· 2025-07-10 12:26
研究背景 - 多模态大语言模型(MLLMs)通过结合视觉、语音等模态编码器与文本生成模型,展现出处理多模态数据的强大能力,但在实际应用中面临灾难性遗忘问题[3] - 持续多模态指令微调(CMIT)成为核心挑战,目前研究刚起步,传统持续学习策略针对小规模单模态模型,在多模态场景下面临任务架构冲突和模态不均衡两大新挑战[4] - 任务架构冲突表现为不同任务对模型不同层次依赖程度差异明显,例如视觉任务中部分依赖视觉编码器浅层,另一些则依赖语言模型深层[4] - 模态不均衡表现为不同任务对图像、文本等模态依赖程度差别大,导致训练中各模态更新不平衡[7][8] 研究方法 - 提出D-MoLE框架,通过动态调整模型结构解决任务架构冲突和模态不平衡问题,包含动态分层专家分配器和基于梯度的跨模态持续课程两大核心组件[10][16] - 动态分层专家分配器通过零成本代理评估识别关键层并分配LoRA专家,实现按需适配新任务[23] - 基于梯度的跨模态持续课程通过评估各模态学习难度动态分配参数预算,解决模态不均衡问题[24] - 框架保留通用基础、按需适配新任务、情境化利用旧经验,实现高效适应新任务同时保留过往知识[21][23] 实验结果 - 在包含9个数据集的CMIT基准测试中,D-MoLE在AVG指标上比次优方法提升15.08%,在Last指标上提升20.14%,BWT指标从-21.31%改善至-1.49%[29] - 通用能力评估显示D-MoLE在MME-Sum(1754.6)、MMMU-Val(32.7)和POPE-Sum(88.1)上接近原始预训练模型水平,优于Seq-FT和O-LoRA[31] - 消融实验验证各组件有效性,移除跨模态课程或动态分层专家分配器均导致性能显著下降[34] - 训练效率与vanilla LoRA微调相当(12.40小时),远快于复杂持续学习方法如MOLA(23.03小时)[36] 业务应用 - 可提升阿里安全多模态审核大模型在交互内容安全场景下的持续适应能力,支持多平台差异化审核规则[38] - 模型能快速适配新平台或规则而不影响原有能力,仅需引入少量参数,降低运维成本并提升多任务环境灵活性[39]