Workflow
分组混合专家模型(MoGE)
icon
搜索文档
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 08:57
混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),通过专家分组机制实现跨设备计算负载均衡,在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题,导致系统效率瓶颈,而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分,千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro(5-shot)测试中得分63.5,显著高于同规模稠密模型GLM4(55.8)和Gemma3(50.3) [24] - 中文能力突出,在C-Eval(5-shot)和CMMLU(5-shot)分别取得90.6和89.0的EM分数,领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术,将专家均匀划分为M组,每组独立进行Top-K路由,确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数,超参数α控制强度,f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性,实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s,经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象(最高处理30% token量),盘古Pro MoE实现各专家均匀分布(约12.5%) [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片,赋能客户运行百亿级模型,开辟AI产业应用新蓝海 [27] - 在代码生成(HumanEval 63.7 Pass@1)和数学推理(GSM8K 86.5 EM)等复杂任务展现领先性能 [24]