分组混合专家模型

搜索文档
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
华尔街见闻· 2025-05-29 08:57
混合专家模型技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),通过专家分组机制实现跨设备计算负载均衡,在4K昇腾大规模集群上高效训练 [1] - MoGE架构下盘古Pro MoE大模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2平台分别实现321 tokens/s和1528 tokens/s的推理速度 [1] - 传统MoE存在专家激活频次高度不均衡问题,导致系统效率瓶颈,而MoGE通过硬约束负载均衡策略解决这一行业难题 [6][7] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获得58.75分,千亿参数量以内大模型排行并列国内第一 [2][3] - 在MMLU-Pro(5-shot)测试中得分63.5,显著高于同规模稠密模型GLM4(55.8)和Gemma3(50.3) [24] - 中文能力突出,在C-Eval(5-shot)和CMMLU(5-shot)分别取得90.6和89.0的EM分数,领先多数对比模型 [24] 技术创新细节 - 采用分组均衡路由技术,将专家均匀划分为M组,每组独立进行Top-K路由,确保组间负载差异为0 [16] - 引入Batch级辅助均衡损失函数,超参数α控制强度,f_i表示批次中被路由到专家i的token占比 [14] - 通过三层架构仿真策略(粗粒度筛选→候选集缩减→算子级仿真)优化昇腾平台亲和性 [15] 硬件适配优化 - 深度融合昇腾300I Duo/800I A2硬件加速架构特性,实现混合并行与通信优化等软硬协同创新 [18] - 在昇腾300I Duo平台单卡吞吐达201 tokens/s,经MTP解码优化提升至321 tokens/s [18] - 对比DeepSeek-V2的专家负载集中现象(最高处理30% token量),盘古Pro MoE实现各专家均匀分布(约12.5%) [26] 行业应用价值 - 推动大模型从参数竞赛转向实效主义,通过动态负载均衡技术降低云端推理成本 [27] - 轻量化推理引擎适配华为昇腾芯片,赋能客户运行百亿级模型,开辟AI产业应用新蓝海 [27] - 在代码生成(HumanEval 63.7 Pass@1)和数学推理(GSM8K 86.5 EM)等复杂任务展现领先性能 [24]
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经· 2025-05-28 21:36
在 AI 的竞技场上,大型语言模型( LLMs )的军备竞赛正酣。其中,混合专家模型( Mixture of Experts, MoE )凭借 "低计算开销实现强能力" 的特性,已成为这场竞赛中的 "潜力黑马",备受瞩 目。 传统的 MoE 架构,虽有着理论上的优势,却在实际落地中遭遇 "滑铁卢"。专家激活频次不均衡,如 同潜藏在高效运行背后的 "暗礁",一旦专家并行部署在不同硬件设备上,系统效率瓶颈便会凸显, 大规模训练也因此举步维艰。这一难题,犹如达摩克利斯之剑,高悬在所有试图在 MoE 架构上大展 宏图的团队头顶。 针 对 这 一 挑 战 , 华 为 盘 古 团 队 近 期 创 新 性 的 提 出 了 分 组 混 合 专 家 模 型 ( Mixture of Grouped Experts, MoGE ),通过在专家选择阶段引入动态分组机制,从底层优化负载分配逻辑,实现跨设 备计算资源的均衡调度。这一架构革新使盘古大模型能够在 4K 昇腾大规模集群中完成高效训练,突 破了传统 MoE 的工程落地瓶颈。 基于 MoGE 架构打造的盘古 Pro MoE 大模型展现出卓越的工程实践能力:模型总参数量 720 ...
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
雷峰网· 2025-05-28 20:06
" 盘古Pro MoE带领大模型从「参数军备竞赛」转向「实效主 义」。 " 作者丨李希 当前,混合专家模型(Mixture of Experts, MoE )在大型语言模型中的兴起,使得以较小的计算开销换 取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频次高度不均衡现象,当专家并行部署于不同 硬件设备时,易引发系统效率瓶颈。 为此,华为盘古团队提出 分组混合专家模型(Mixture of Grouped Experts, MoGE ) ,通过在专家选 择阶段引入分组机制,可确保跨设备的计算负载均衡,成功在 4K 昇腾大规模集群 进行高效训练。 同时,基于 MoGE 架构构建的 盘古 Pro MoE 大模型(72B 总参数、16B 激活参数) 在昇腾 300I Duo 和 800I A2 可实现更优的专家负载分布与计算效率(321 tokens/s 和 1528 tokens/s)。 在模型能力方面,盘古 Pro MoE 在最新一期业界权威大模型榜单 SuperCLUE 上交出了超能打的成绩, 实现了综合能力的领先。 具体来说,和其他动辄千亿以上的大模型(如 DeepSeek-R1 具有 671B 参 ...