Workflow
稀疏插值混合专家(SIMoE)
icon
搜索文档
只需一次指令微调,大模型变身全能专家天团,8B模型性能反超全微调基线 | ACL25 Oral
量子位· 2025-07-28 14:42
只需一次指令微调,即可让普通大模型变身" 全能专家天团 "? 当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;稀疏混合专家(SMoE)架构作为可扩展的性能- 效率平衡框架,虽能提升推理效率并灵活扩展模型容量,但其从头训练消耗巨大资源,因此复用密集大模型参数的 升级改造 (LLM Upcycling)成为更具成本效益的替代方案。 SIMoE团队 投稿 量子位 | 公众号 QbitAI 然而现有升级方法存在 两大局限 :一是依赖人工经验选择可扩展的专家位置(如固定替换FFN层),忽视模型层间动态差异与任务特性;二 是缺乏系统机制平衡专家专业化与协作,导致冗余或知识碎片化。 为此,来自浙江大学与Thomson Reuters的研究团队提出全新解决方案 稀疏插值混合专家 (SIMoE),只需单阶段指令微调,即可将普通 大模型自动升级为高性能稀疏专家模型。SIMoE通过 结构化稀疏优化 自动发现神经元级专家参数子集,创新性地结合专家 共享增量参数与 掩码正交惩罚 在多项基准测试中实现 性能、效率的双重突破 。 目前相关研究论文已被 ICML 2024、 ACL 2025 Oral 接收 ...