PreMoE - 财报，业绩电话会，研报，新闻

PreMoE

搜索文档

虎嗅APP· 2025-06-06 18:10

华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型，大幅降低计算开销，在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化，Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s，在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略，根据任务特性"分工开小会"，让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案，Expert模块采用TP2+EP4策略，共享专家以TP8全芯并行[6] - 相比纯TP方案，Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作，同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略，实现通信数据压缩25%，AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案，实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略，克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率，最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍，达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍，解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE，实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法，推理步数降低14%[27] - 提出SpecReason反思投机算法，推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s，较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术，单卡BS可提升至146，最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s，提供更具性价比的MoE推理解决方案[32]