MoGE)

搜索文档
华为盘古大模型首次开源!昇腾单卡秒输出1148tokens,16B激活参数不输32B密集模型
量子位· 2025-07-02 17:33
华为盘古大模型开源 - 华为首次开源盘古大模型,模型名为盘古Pro MoE,参数量72B,激活参数量16B,中英文理解和推理能力不输32B密集模型 [1] - 模型提出全新MoE架构,针对昇腾芯片优化,在昇腾800I A2上实现单卡1148 tokens每秒推理吞吐性能 [2] - 中英文技术报告已发布,相关话题在微博引发热议,模型权重被第三方搬运至Hugging Face [4][6] 模型性能表现 - 盘古Pro MoE总参数量72B,包含64个路由专家和4个共享专家,激活参数量16B占比22.2% [8] - 在中文、英文、数学、代码等测试中表现与32B密集模型相当 [9] - 英文MMLU-PRO测试得分82.6,超越Qwen3-32B、Gemma3-27B等密集模型 [10] - 中文C-Eval测试得分91.1,超越Qwen3-32B的89.2分 [12] - 数学推理MATH-500测试得分96.8,超越Qwen3-32B的96.6分 [14] - W8A8量化配置下精度几乎无损失,W4A8量化精度损失在可接受范围内 [14][15] 模型架构创新 - 采用独创的分组混合专家模型(MoGE)架构,实现跨设备计算负载均衡 [22] - 通过专家分组和分组均衡路由策略强制每个token从各组选择相同数量专家 [24][31] - 引入均衡辅助损失确保路由模块合理调节专家负载 [27] - 架构与昇腾NPU分布式部署形成有效协同 [28] 训推设施优化 - 训练层面优化包括分层EP All-to-All通信、自适应流水掩盖机制和内存优化策略 [30] - 推理层面采用分层混合并行策略,稀疏专家模块占95%,注意力模块仅占5% [33] - 通过专家感知后训练量化和KV缓存量化实现高效推理 [37][38] - 提出融合注意力算子MulAttention实现4.5倍端到端注意力加速 [39] - 开发SwiftGMM加速技术,MTE2利用率最高达95% [41][42] 推理效率 - 双卡部署W8A8量化配置下,Prefill阶段单卡输入吞吐达4828 tokens/秒,比72B和32B密集模型提升203%和42% [17][18] - 4卡部署W8A8量化配置下,Decoder阶段单卡输出吞吐达1148 tokens/秒,比72B和32B密集模型高出97%和18% [19][20]