华为昇腾平台与Pangu Pro MoE模型优化 核心观点 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,通过软硬协同优化实现推理性能提升6~8倍,在昇腾300I Duo和800I A2上分别达到321 tokens/s和1528 tokens/s的吞吐量 [2] - 采用分层混合并行(H2P)、通信优化(TopoComm)、计算通信融合(DuoStream)等创新技术,显著提升分布式推理效率 [4][6][8] - 开发MulAttention和SwiftGMM两大融合算子,分别实现Attention计算加速4.5倍和GMM计算加速2.1倍,解码时延降低48.7% [15][18] 技术优化细节 系统级优化 - H2P分层混合并行:针对Attention模块采用DP2+TP4并行,Expert模块采用TP2+EP4策略,共享专家TP8全芯并行,Decode吞吐性能比纯TP方案提升33.1% [4][5] - TopoComm通信优化:SlimRing算法降低同步次数35%,NHD算法提高链路有效带宽21%,混合量化通信策略压缩数据25%,AllGather耗时降低39% [6] - DuoStream多流融合:通过GMMRS和AGMM策略实现通信与计算流水掩盖,最大化释放硬件潜力 [10] 算子级优化 - MulAttention算子:优化KV缓存搬运,访存带宽利用率达87%,数据搬运流水占用率89%,Attention计算加速4.5倍 [15] - SwiftGMM算子:动态切换GEMV/GEMM模式,结合智能分块缓存和双缓存机制,解码阶段整网时延降低48.7% [18] 推理算法创新 - PreMoE动态剪枝:通过PEP和TAER技术动态加载相关专家,保持准确率同时推理吞吐提升10%+ [22] - TrimR反思压缩:用小模型监测大模型思考过程,异常时终止推理,步数降低14% [23] - SpecReason投机推理:小模型生成假设后大模型验证,推理吞吐提升30% [23] 性能表现 昇腾800I A2 - 4卡部署下,大并发场景(BS=456)单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18% [26] - 结合MTP投机推理,单卡BS提升至146,平均时延95.56ms,最高吞吐1528 tokens/s [26][28] 昇腾300I Duo - 预填充阶段2卡2路并发下2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [29] - 解码阶段小并发延迟50ms,大并发(BS=80)单卡吞吐201 tokens/s,MTP优化后最高达321 tokens/s [29][31]
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网·2025-06-06 17:26