Workflow
华为盘古大模型首次打榜:昇腾原生 72B MoE 模型登顶 SuperCLUE 千亿内模型榜首
第一财经·2025-05-28 21:36

在 AI 的竞技场上,大型语言模型( LLMs )的军备竞赛正酣。其中,混合专家模型( Mixture of Experts, MoE )凭借 "低计算开销实现强能力" 的特性,已成为这场竞赛中的 "潜力黑马",备受瞩 目。 传统的 MoE 架构,虽有着理论上的优势,却在实际落地中遭遇 "滑铁卢"。专家激活频次不均衡,如 同潜藏在高效运行背后的 "暗礁",一旦专家并行部署在不同硬件设备上,系统效率瓶颈便会凸显, 大规模训练也因此举步维艰。这一难题,犹如达摩克利斯之剑,高悬在所有试图在 MoE 架构上大展 宏图的团队头顶。 针 对 这 一 挑 战 , 华 为 盘 古 团 队 近 期 创 新 性 的 提 出 了 分 组 混 合 专 家 模 型 ( Mixture of Grouped Experts, MoGE ),通过在专家选择阶段引入动态分组机制,从底层优化负载分配逻辑,实现跨设 备计算资源的均衡调度。这一架构革新使盘古大模型能够在 4K 昇腾大规模集群中完成高效训练,突 破了传统 MoE 的工程落地瓶颈。 基于 MoGE 架构打造的盘古 Pro MoE 大模型展现出卓越的工程实践能力:模型总参数量 720 ...