MoE训练

搜索文档
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻· 2025-06-04 19:01
最近,华为在MoE训练系统方面,给出了MoE训练算子和内存优化新方案:三大核心算子全面 提速,系统吞吐再提20%,Selective R/S实现内存节省70%。 在通往更强大的 AI 路上, MoE 已成为科技巨头另一个首选路径。 只要 Scaling Law 没有失效,大模型的参数规模依旧不断扩大,由此 AI 智能水平才能不断攀升。 凭借独特的架构设计, MoE 正以前所未有的参数规模,成为突破大规模模型训练的算力瓶颈的关键 路径之一。 然而,如何将 MoE 潜力真正转化为高效的训练实践,一直是业界探索的难题。 此前,华为曾通过 Adaptive Pipe&EDPB 框架,实现了集群级高效分布式计算,让通信和计算能完 美并行,提高训练集群效率。 本次,华为通过昇腾与鲲鹏算力的深度协同,进一步实现了训练算子计算效率和内存利用率大幅提 升。 他们从单节点视角出发,深入到NPU和CPU内部,对算子计算、下发、训练内存使用等进行细粒 度拆解。 令人惊喜的是,结果显示, MOE 训练在之前的基础上,吞吐又提升了 20% ,内存占用降低了 70% 。 首先,硬件核心计算单元,如 Cube 利用率不足,存在冗余操作和可优 ...
昇腾+鲲鹏双核暴击!华为打通MoE训练任督二脉再加速20%,内存省70%
雷峰网· 2025-06-04 17:31
华为MoE训练技术突破 - 公司通过昇腾与鲲鹏算力深度协同,实现训练算子计算效率和内存利用率大幅提升,MoE训练吞吐提升20%,内存占用降低70% [6][7] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][4] - 行业面临单节点训练效率挑战,包括算子计算效率低、专家路由机制导致下发中断、NPU内存不足三大难题 [10][13][16] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention/MatMul/Vector三大核心算子,采用"瘦身术/均衡术/搬运术"优化策略,整体训练吞吐提升15% [19][20][21] - FlashAttention算子通过消除冗余计算和优化流水线,前/反向性能分别提升50%/30% [23][25] - MatMul算子通过双级数据流水优化,Cube计算单元利用率提升10% [26][28] - Vector算子融合细粒度小算子并减少数据搬运,性能提升3倍以上 [30][32] 昇腾-鲲鹏协同优化 - 通过Host-Device协同实现算子下发"零等待"(free时间占比<2%),训练吞吐额外提升4% [34][44] - 采用重排下发序技术使单次Host-Bound时间从2.1ms降至0.6ms,降幅超70% [39] - 自定义粗粒度绑核策略(每NPU绑24核)完全消除系统型Host-Bound瓶颈 [43] 内存优化技术创新 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [46] - 建立细粒度重计算与Swap策略库,涵盖MLA/RmsNorm/Permute等模块的定制化优化 [50][52] - 采用贪心算法和Swap带宽竞争分析实现自适应内存优化管理,平衡内存节省与额外耗时 [56] 行业影响与成果 - 该方案为Pangu Ultra MoE 718B模型训练扫清障碍,展现公司在AI算力领域的技术积累 [58] - 技术突破包括集群通信优化、算子加速、内存节省三大维度,形成完整解决方案 [17][21][46] - 成果为行业大规模MoE训练提供参考路径,推动AI模型参数规模持续扩展 [4][59]