MoE训练 - 财报，业绩电话会，研报，新闻

MoE训练

搜索文档

华尔街见闻· 2025-06-04 19:01

华为MoE训练系统技术突破 - 公司推出MoE训练算子和内存优化新方案，实现三大核心算子全面提速，系统吞吐提升20%，Selective R/S内存节省70% [1] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径，支持千亿至万亿参数规模 [3][11] - 通过昇腾与鲲鹏算力深度协同，从单节点视角优化NPU和CPU内部算子计算、下发及内存使用，实现技术突破并引领行业风向 [4][5][15] MoE训练效率挑战 - 单节点训练面临两大核心挑战：算子计算效率低导致Cube利用率不足，专家路由机制引发频繁算子下发中断 [7][8][9] - NPU内存资源紧张问题突出，大模型参数和前向传播激活值导致内存溢出风险，成为大规模训练永恒主题 [11][12][13][14] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention、MatMul、Vector三大核心算子，提出"瘦身术"、"均衡术"、"搬运术"优化策略 [16][17] - FlashAttention优化计算顺序和流水排布，支持非对齐计算，前/反向性能提升50%/30% [19][20][21][24] - MatMul通过双级数据流水优化和矩阵子块斜向分配，Cube利用率提升10% [25][26][28] - Vector算子融合小算子减少数据搬运，性能提升3倍以上 [30][31][32] 昇腾鲲鹏协同优化 - Host-Device协同实现算子下发"零等待"（free时间<2%），训练吞吐再提升4%，累计加速达19.6% [33][42] - 等效计算同步消除和重排下发序优化使单次Host-Bound从2.1ms降至0.6ms [34][35][38] - 采用每NPU绑24核的粗粒度绑核方式，完全消除系统型持续Host-Bound [39][41] 内存优化技术 - Selective R/S技术实现多维度内存解剖，节省70%激活值内存 [33][43] - 建立包含细粒度重计算和Swap策略的"显微手术器械库"，支持MLA、RmsNorm等模块优化 [45][46][48] - 创新内存管理机制，通过贪心算法和Swap带宽分析确定最优策略组合 [51][52] 行业影响 - 方案为Pangu Ultra MoE 718B模型训练提供高效低成本解决方案，扫清大规模训练障碍 [18][42][43][53] - 技术突破展现公司在AI算力领域深厚积累，为行业提供参考路径 [54]

昇腾+鲲鹏双核暴击！华为打通MoE训练任督二脉再加速20%，内存省70%

雷峰网· 2025-06-04 17:31

华为MoE训练技术突破 - 公司通过昇腾与鲲鹏算力深度协同，实现训练算子计算效率和内存利用率大幅提升，MoE训练吞吐提升20%，内存占用降低70% [6][7] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径，支持千亿至万亿参数规模 [3][4] - 行业面临单节点训练效率挑战，包括算子计算效率低、专家路由机制导致下发中断、NPU内存不足三大难题 [10][13][16] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention/MatMul/Vector三大核心算子，采用"瘦身术/均衡术/搬运术"优化策略，整体训练吞吐提升15% [19][20][21] - FlashAttention算子通过消除冗余计算和优化流水线，前/反向性能分别提升50%/30% [23][25] - MatMul算子通过双级数据流水优化，Cube计算单元利用率提升10% [26][28] - Vector算子融合细粒度小算子并减少数据搬运，性能提升3倍以上 [30][32] 昇腾-鲲鹏协同优化 - 通过Host-Device协同实现算子下发"零等待"(free时间占比<2%)，训练吞吐额外提升4% [34][44] - 采用重排下发序技术使单次Host-Bound时间从2.1ms降至0.6ms，降幅超70% [39] - 自定义粗粒度绑核策略(每NPU绑24核)完全消除系统型Host-Bound瓶颈 [43] 内存优化技术创新 - Selective R/S技术实现多维度内存解剖，节省70%激活值内存 [46] - 建立细粒度重计算与Swap策略库，涵盖MLA/RmsNorm/Permute等模块的定制化优化 [50][52] - 采用贪心算法和Swap带宽竞争分析实现自适应内存优化管理，平衡内存节省与额外耗时 [56] 行业影响与成果 - 该方案为Pangu Ultra MoE 718B模型训练扫清障碍，展现公司在AI算力领域的技术积累 [58] - 技术突破包括集群通信优化、算子加速、内存节省三大维度，形成完整解决方案 [17][21][46] - 成果为行业大规模MoE训练提供参考路径，推动AI模型参数规模持续扩展 [4][59]