Workflow
充分激发模态协作,MokA量身打造MLLM微调新范式
机器之心·2025-06-29 10:21

多模态大模型微调方法研究 核心观点 - 当前多模态大模型微调方法直接沿用单模态策略(如LoRA),忽视模态异质性导致信息利用不足 [2][8] - 研究团队提出MokA方法,首次同时兼顾单模态独立建模(Unimodal Adaptation)和跨模态交互建模(Cross-modal Adaptation)[9][12] - 实验证明MokA在音频-视觉-文本、视觉-文本、语音-文本三大场景中性能显著超越现有方法 [19][20][21][22] 方法论创新 - 模态特异A矩阵:为每种模态设置独立参数空间,避免信息压缩干扰 [15] - 跨模态注意力机制:在低秩空间显式强化文本与非文本模态的任务关联 [16] - 共享B矩阵:将独立模态投影至共享空间实现隐式对齐 [17] 实验结果 音频-视觉-文本场景 - LLaMA2基座上MokA准确率达75.71(LoRA基线73.41)[20] - Qwen2.5-VL基座提升1.87个百分点至74.87 [20] - LLaMA3基座实现当前最高79.15准确率 [20] 视觉-文本场景 - MMEpercep评测中MokA得分1292.37(Qwen2基座),较LoRA提升21.7% [21] - SEED-Bench准确率提升2.85个百分点至58.10 [21] 架构优势 - 参数量仅需N个A矩阵+1个B矩阵,保持LoRA高效特性 [20][21] - 兼容LLaMA/Qwen等主流基座模型 [19] 行业意义 - 为多模态大模型微调提供新范式,突破单模态策略迁移的局限性 [12][23] - 开源项目已覆盖三大高频应用场景,具备商业化落地潜力 [5][19]