Pangu Pro MoE 72B模型 - 财报，业绩电话会，研报，新闻

Pangu Pro MoE 72B模型

搜索文档

机器之心· 2025-06-06 17:36

混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型，显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍，昇腾300I Duo单卡吞吐达321 tokens/s，昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略，Decode吞吐性能相比纯TP方案提升33.1%，通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案，同步次数降低35%，链路有效带宽提高21%，通信数据压缩25%，AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案，实现计算与通信细粒度并发调度，解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略，关键通信路径流水掩盖，显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子，Attention计算加速4.5倍，数据搬运流水占用率89%，访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎，GMM计算加速2.1倍，解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升，路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程，推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势，推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下，大并发场景单卡吞吐1148 tokens/s，较72B/32B稠密模型提升97%/18%，MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms，大并发单卡吞吐201 tokens/s，MTP技术下吞吐最高321 tokens/s，提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s，单卡吞吐1055 tokens/s [26]

生于昇腾，快人一步：盘古Pro MoE全链路优化推理系统揭秘

雷峰网· 2025-06-06 17:26

华为昇腾平台与Pangu Pro MoE模型优化核心观点 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型，通过软硬协同优化实现推理性能提升6~8倍，在昇腾300I Duo和800I A2上分别达到321 tokens/s和1528 tokens/s的吞吐量 [2] - 采用分层混合并行（H2P）、通信优化（TopoComm）、计算通信融合（DuoStream）等创新技术，显著提升分布式推理效率 [4][6][8] - 开发MulAttention和SwiftGMM两大融合算子，分别实现Attention计算加速4.5倍和GMM计算加速2.1倍，解码时延降低48.7% [15][18] 技术优化细节系统级优化 - **H2P分层混合并行**：针对Attention模块采用DP2+TP4并行，Expert模块采用TP2+EP4策略，共享专家TP8全芯并行，Decode吞吐性能比纯TP方案提升33.1% [4][5] - **TopoComm通信优化**：SlimRing算法降低同步次数35%，NHD算法提高链路有效带宽21%，混合量化通信策略压缩数据25%，AllGather耗时降低39% [6] - **DuoStream多流融合**：通过GMMRS和AGMM策略实现通信与计算流水掩盖，最大化释放硬件潜力 [10] 算子级优化 - **MulAttention算子**：优化KV缓存搬运，访存带宽利用率达87%，数据搬运流水占用率89%，Attention计算加速4.5倍 [15] - **SwiftGMM算子**：动态切换GEMV/GEMM模式，结合智能分块缓存和双缓存机制，解码阶段整网时延降低48.7% [18] 推理算法创新 - **PreMoE动态剪枝**：通过PEP和TAER技术动态加载相关专家，保持准确率同时推理吞吐提升10%+ [22] - **TrimR反思压缩**：用小模型监测大模型思考过程，异常时终止推理，步数降低14% [23] - **SpecReason投机推理**：小模型生成假设后大模型验证，推理吞吐提升30% [23] 性能表现昇腾800I A2 - 4卡部署下，大并发场景（BS=456）单卡吞吐1148 tokens/s，较72B/32B稠密模型提升97%/18% [26] - 结合MTP投机推理，单卡BS提升至146，平均时延95.56ms，最高吞吐1528 tokens/s [26][28] 昇腾300I Duo - 预填充阶段2卡2路并发下2k序列输入延迟1.94s，单卡吞吐1055 tokens/s [29] - 解码阶段小并发延迟50ms，大并发（BS=80）单卡吞吐201 tokens/s，MTP优化后最高达321 tokens/s [29][31]

混合专家（MoE）模型

通用人工智能（AGI）

人工智能

Pangu Pro MoE全链路优化推理系统

Pangu Pro MoE全链路优化推理系统

Pangu Pro MoE 72B模型

昇腾300I Duo