Workflow
首次打榜就登顶,华为盘古如何以小胜大?
虎嗅APP·2025-05-28 21:34

华为MoGE架构技术突破 - 华为盘古团队提出分组混合专家模型(MoGE),基于该架构构建的盘古Pro MoE大模型总参数72B,激活参数16B,在昇腾300I Duo和800I A2平台实现321 tokens/s和1528 tokens/s的计算效率 [2] - MoGE架构克服传统MoE负载不均衡及效率瓶颈,通过分组均衡路由技术确保跨设备负载均衡,结合仿真优化算法实现昇腾硬件亲和性设计 [6][12] - 盘古Pro MoE在SuperCLUE榜单以59分位列千亿参数量以内大模型国内第一,16B激活参数量媲美更大规模模型 [2][4] 技术原理与工程实现 - 分组均衡路由将专家均匀划分为M组,每组独立Top-K路由,全局激活数=组数×每组激活数,实现组间负载差异为0并避免通信瓶颈 [12] - 采用Batch级辅助均衡损失函数控制专家权重分布,结合分层策略与算子级仿真器优化昇腾平台上的精度与推理效率 [13][14] - 深度融合昇腾硬件加速架构并行计算特性,通过混合并行、通信优化、量化压缩及高性能算子(如MulAttention/SwiftGMM)实现推理加速 [16] 性能与行业影响 - 昇腾300I Duo单卡吞吐达201 tokens/s(MTP解码优化后321 tokens/s),昇腾800I A2单卡吞吐1148 tokens/s(优化后1528 tokens/s),显著领先同规模稠密模型 [16] - 在MMLU(EM 89.3)、C-Eval(EM 91.1)、LiveCodeBench(Pass@1 62.6)等跨语言多领域测试中超越同规模开源模型(Qwen3-32B/GLM4-Z1-32B) [18][19] - 专家负载分布接近理论理想值(各专家处理token占比约12.5%),相比DeepSeek-V2(最高30%)实现硬件效率革命 [20] 行业范式转变 - 从参数军备竞赛转向实效主义,动态负载均衡技术降低云端推理成本,轻量化推理引擎适配昇腾芯片赋能百亿级模型部署 [23] - 标志大模型进入工业化部署新阶段,为高并发实时场景提供支持,重新定义AI产业应用的"高效普惠"智能底座 [23]