Workflow
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻·2025-06-04 19:01

华为MoE训练系统技术突破 - 公司推出MoE训练算子和内存优化新方案,实现三大核心算子全面提速,系统吞吐提升20%,Selective R/S内存节省70% [1] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][11] - 通过昇腾与鲲鹏算力深度协同,从单节点视角优化NPU和CPU内部算子计算、下发及内存使用,实现技术突破并引领行业风向 [4][5][15] MoE训练效率挑战 - 单节点训练面临两大核心挑战:算子计算效率低导致Cube利用率不足,专家路由机制引发频繁算子下发中断 [7][8][9] - NPU内存资源紧张问题突出,大模型参数和前向传播激活值导致内存溢出风险,成为大规模训练永恒主题 [11][12][13][14] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention、MatMul、Vector三大核心算子,提出"瘦身术"、"均衡术"、"搬运术"优化策略 [16][17] - FlashAttention优化计算顺序和流水排布,支持非对齐计算,前/反向性能提升50%/30% [19][20][21][24] - MatMul通过双级数据流水优化和矩阵子块斜向分配,Cube利用率提升10% [25][26][28] - Vector算子融合小算子减少数据搬运,性能提升3倍以上 [30][31][32] 昇腾鲲鹏协同优化 - Host-Device协同实现算子下发"零等待"(free时间<2%),训练吞吐再提升4%,累计加速达19.6% [33][42] - 等效计算同步消除和重排下发序优化使单次Host-Bound从2.1ms降至0.6ms [34][35][38] - 采用每NPU绑24核的粗粒度绑核方式,完全消除系统型持续Host-Bound [39][41] 内存优化技术 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [33][43] - 建立包含细粒度重计算和Swap策略的"显微手术器械库",支持MLA、RmsNorm等模块优化 [45][46][48] - 创新内存管理机制,通过贪心算法和Swap带宽分析确定最优策略组合 [51][52] 行业影响 - 方案为Pangu Ultra MoE 718B模型训练提供高效低成本解决方案,扫清大规模训练障碍 [18][42][43][53] - 技术突破展现公司在AI算力领域深厚积累,为行业提供参考路径 [54]