Workflow
SwiftGMM
icon
搜索文档
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略,根据任务特性"分工开小会",让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家以TP8全芯并行[6] - 相比纯TP方案,Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作,同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略,实现通信数据压缩25%,AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略,克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率,最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE,实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法,推理步数降低14%[27] - 提出SpecReason反思投机算法,推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术,单卡BS可提升至146,最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s,提供更具性价比的MoE推理解决方案[32]