核心观点 - 中国移动九天团队提出创新性Hybrid MoE架构MultiPL-MoE,旨在解决大语言模型在有限计算资源下提升多编程语言代码生成能力时面临的挑战,特别是低资源语言性能差与高资源语言灾难性遗忘问题[2][4] - 该架构通过耦合token-level和segment-level两层专家选择机制进行优化,在HumanEval和MBPP基准测试中显示出显著进步,有效提升了低资源语言的性能并缓解了灾难性遗忘[2][19] - 该项研究已被EMNLP 2025接收,相关论文和代码已公开[3] 方法与架构 - MultiPL-MoE是一种混合MoE结构,结合了token-level MoE和segment-level MoE[4][7] - Token-level MoE采用配备共享专家及新颖门控权重归一化方法的稀疏MoE,以实现与段落层级专家的高效协同并解决规模不匹配问题[2][7][8] - Segment-level MoE创新性地引入滑动窗口划分与专家选择路由策略,使模型能够精准捕捉不同编程语言的语法结构与深层上下文模式[2][7][9] - 最终输出为token-level MoE和segment-level MoE输出的加权融合[13] 实验结果 - 在HumanEval基准测试中,MultiPL-MoE(激活参数3.5B,总参数10.8B)在六种语言上的平均得分为10.8,显著高于基线模型Qwen1.5(1.8B参数)的7.4分[19][20] - 在MBPP基准测试中,MultiPL-MoE平均得分为15.0,高于Qwen1.5的10.0分,尤其在低资源语言Rust上从基线的4.5分提升至16.1分,Go从8.5分提升至17.3分[19][20] - 实验结果表明该方法显著增强了模型在低资源编程语言上的性能,同时有效缓解了高资源编程语言中的灾难性遗忘问题[19]
中移动九天团队MultiPL-MoE:全新Hybrid-MoE架构用于增强通用大模型低资源代码能力
机器之心·2025-10-30 09:41