Workflow
Pangu Ultra MoE 718B模型
icon
搜索文档
昇腾+鲲鹏联手上大招!华为爆改MoE训练,吞吐再飙升20%,内存省70%
华尔街见闻· 2025-06-04 19:01
华为MoE训练系统技术突破 - 公司推出MoE训练算子和内存优化新方案,实现三大核心算子全面提速,系统吞吐提升20%,Selective R/S内存节省70% [1] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径,支持千亿至万亿参数规模 [3][11] - 通过昇腾与鲲鹏算力深度协同,从单节点视角优化NPU和CPU内部算子计算、下发及内存使用,实现技术突破并引领行业风向 [4][5][15] MoE训练效率挑战 - 单节点训练面临两大核心挑战:算子计算效率低导致Cube利用率不足,专家路由机制引发频繁算子下发中断 [7][8][9] - NPU内存资源紧张问题突出,大模型参数和前向传播激活值导致内存溢出风险,成为大规模训练永恒主题 [11][12][13][14] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention、MatMul、Vector三大核心算子,提出"瘦身术"、"均衡术"、"搬运术"优化策略 [16][17] - FlashAttention优化计算顺序和流水排布,支持非对齐计算,前/反向性能提升50%/30% [19][20][21][24] - MatMul通过双级数据流水优化和矩阵子块斜向分配,Cube利用率提升10% [25][26][28] - Vector算子融合小算子减少数据搬运,性能提升3倍以上 [30][31][32] 昇腾鲲鹏协同优化 - Host-Device协同实现算子下发"零等待"(free时间<2%),训练吞吐再提升4%,累计加速达19.6% [33][42] - 等效计算同步消除和重排下发序优化使单次Host-Bound从2.1ms降至0.6ms [34][35][38] - 采用每NPU绑24核的粗粒度绑核方式,完全消除系统型持续Host-Bound [39][41] 内存优化技术 - Selective R/S技术实现多维度内存解剖,节省70%激活值内存 [33][43] - 建立包含细粒度重计算和Swap策略的"显微手术器械库",支持MLA、RmsNorm等模块优化 [45][46][48] - 创新内存管理机制,通过贪心算法和Swap带宽分析确定最优策略组合 [51][52] 行业影响 - 方案为Pangu Ultra MoE 718B模型训练提供高效低成本解决方案,扫清大规模训练障碍 [18][42][43][53] - 技术突破展现公司在AI算力领域深厚积累,为行业提供参考路径 [54]
上帝视角的昇腾MoE训练智能交通系统,Adaptive Pipe&EDPB让训练效率提升70%
华尔街见闻· 2025-06-03 21:05
混合专家(MoE)模型的发展与挑战 - 混合专家(MoE)模型通过动态路由机制分配输入token给不同专家网络,高效扩展模型参数并提升复杂任务处理能力 [1] - MoE模型在分布式集群训练时面临效率不足问题,主要因计算/通信等待和负载不均导致50%以上训练时间浪费 [2] MoE训练效率的核心瓶颈 - 专家并行(EP)引入All-to-All通信依赖,导致计算单元空闲等待,串行执行模式加剧资源闲置 [2] - 负载不均表现为热专家频繁调用(如部分专家使用率过高)与冷专家闲置,同时数据长度差异和模型层计算量不均导致跨设备等待 [2] 华为的优化方案架构 - 构建AutoDeploy仿真平台,通过三维建模和昇腾硬件映射,1小时内模拟百万次训练场景,精度达90%,为Pangu Ultra MoE 718B模型匹配出TP8/PP16/VPP2/EP32最优并行方案 [4][5] - Adaptive Pipe通信掩盖框架采用层次化All-to-All(跨机器通信加速1倍)和自适应细粒度调度,实现>98%通信掩盖,内存占用减半并降低计算空泡 [6][7] - EDPB全局负载均衡通过专家动态迁移、数据重排和虚拟流水线优化,解决负载不均问题,提升训练吞吐25.5% [10][14] 关键技术实现细节 - 层次化All-to-All分两步完成:跨机器数据块聚合+机内高速交换,减少数据拷贝量 [6] - 专家动态迁移采用多目标优化,预测负载趋势并实现毫秒级响应,结合双层贪心优化架构平衡计算与通信 [12][16] - 数据重排通过线性模型量化计算耗时,贪心算法构建最小耗时序列,保持精度无损下均衡Attention计算负载 [14] 系统整体性能提升 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe &EDPB方案实现端到端72.6%吞吐提升,类比智慧交通系统解决通信与计算阻塞 [17] - 虚拟流水线技术分离MTP层与输出层,将Embedding计算前移,规避Stage间等待问题 [14][19]
专家一半时间在摸鱼?Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%
雷峰网· 2025-06-03 15:17
MoE模型训练效率挑战 - 混合专家(MoE)模型通过动态路由机制分配token给不同专家网络,实现参数规模化扩展和复杂任务处理优势[2] - 分布式训练中存在两大效率瓶颈:1)专家并行引入计算与通信等待,导致50%以上训练时间浪费在空闲等待[3][4];2)负载不均导致热专家过载而冷专家闲置[4] - 问题类比为城市交通拥堵:1)人车混行阻塞(计算等待通信);2)车道分配僵化(静态专家分配)[4] AutoDeploy仿真平台 - 基于昇腾硬件的数字孪生平台,通过三维建模和高精度硬件映射,1小时内模拟百万次训练场景,实现90%精度的最优并行策略自动选择[8] - 针对Pangu Ultra MoE 718B模型,自动求解出TP8/PP16/VPP2/EP32并行方案,平衡计算/通信/内存[8] Adaptive Pipe通信优化 - 采用层次化All-to-All通信:分机器间数据收集和机器内高速交换两步,相比传统All-to-All加速1倍[10] - 自适应细粒度调度将流水线并行内存占用减半,实现98%以上EP通信掩盖,计算几乎不受通信等待束缚[11] EDPB负载均衡技术 - 专家预测动态迁移(E):通过多目标优化实现专家跨设备智能流动,具备预测先行/双层优化/智能触发三大特性[17] - 数据重排(D)和虚拟流水线均衡(P)分别解决Attention计算不均和混合结构层间等待问题[19] - 整体在最优并行基础上带来25.5%吞吐提升[14] 系统综合收益 - 在Pangu Ultra MoE 718B模型8K序列训练中,Adaptive Pipe单独提升37.5%,EDPB再提升25.5%,端到端总吞吐提升达72.6%[22][23] - 方案类比为智慧交通系统:通信掩盖相当于行人地下通道,动态迁移相当于智能可变车道[22]
训练MoE足足提速70%!华为只用了3招
量子位· 2025-06-03 14:21
MoE训练效率问题与华为解决方案 - MoE模型训练面临两大效率挑战:专家并行引入的计算/通信等待(50%以上训练时间浪费)和负载不均导致的计算等待[2][4][7] - 华为提出Adaptive Pipe & EDPB优化方案,通过"通信掩盖+动态负载均衡"实现无等待训练,类比"智慧交通系统"解决拥堵问题[3][9] 通信优化技术 - DeployMind仿真平台可在1小时内模拟百万次训练场景,为Pangu Ultra MoE 718B模型找到TP8/PP16/VPP2/EP32最优并行方案[10][11] - 层次化All-to-All通信将跨机传输减少50%,通过机内高速通道完成数据交换[15][16] - Adaptive Pipe框架实现98%通信掩盖率,权重占用减少50%,支持分层通信与细粒度调度[12][18][19] 负载均衡技术 - EDPB方案包含三大创新:专家预测动态迁移(E)、数据重排(D)、虚拟流水线均衡(P),整体提升训练吞吐25.5%[21][22][23][27][28] - 专家迁移技术采用预测+双层优化+智能触发机制,实现计算零存储开销和毫秒级响应[24][25] - 数据重排方案通过线性模型量化耗时,在精度无损前提下实现批次内负载均衡[27] 实际效果验证 - 在Pangu Ultra MoE 718B模型8K序列训练中,华为方案实现端到端72.6%吞吐提升[29][30] - 最优并行策略结合通信掩盖与动态迁移技术,达成计算/通信/内存三要素最佳平衡[11][19][22]
华为AI实力!不用GPU,大模型每2秒吃透一道高数大题!
第一财经· 2025-05-30 17:32
华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环 昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术 让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构 前3层稠密层后58层MoE层 隐层维度7680 配备256个路由专家和1个共享专家 专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难 All-to-All通信瓶颈 系统负载分布不均 算子调度开销过大 训练流程管理复杂 大规模扩展受限 [7][8] - 通过并行策略智能选择 计算通信深度融合 全局动态负载平衡等技术创新显著提升集群效率 建模仿真驱动智能并行优化确定最优部署配置:16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制 专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略 实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速 关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架 实现70%激活值内存节省 微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术 支持训练推理共卡 全共卡等灵活部署模式 实现秒级训推状态转换 后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行 系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞 为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中 采用训练推理混合并行策略 实现每超节点35K Tokens/s高吞吐 支持高效扩展超过4K卡集群 [32][34]