Pangu Ultra MoE 718B模型 - 财报，业绩电话会，研报，新闻

Pangu Ultra MoE 718B模型

搜索文档

华尔街见闻· 2025-06-04 19:01

华为MoE训练系统技术突破 - 公司推出MoE训练算子和内存优化新方案，实现三大核心算子全面提速，系统吞吐提升20%，Selective R/S内存节省70% [1] - MoE架构凭借独特设计成为突破大规模模型训练算力瓶颈的关键路径，支持千亿至万亿参数规模 [3][11] - 通过昇腾与鲲鹏算力深度协同，从单节点视角优化NPU和CPU内部算子计算、下发及内存使用，实现技术突破并引领行业风向 [4][5][15] MoE训练效率挑战 - 单节点训练面临两大核心挑战：算子计算效率低导致Cube利用率不足，专家路由机制引发频繁算子下发中断 [7][8][9] - NPU内存资源紧张问题突出，大模型参数和前向传播激活值导致内存溢出风险，成为大规模训练永恒主题 [11][12][13][14] 昇腾算子计算加速方案 - 针对占计算耗时75%的FlashAttention、MatMul、Vector三大核心算子，提出"瘦身术"、"均衡术"、"搬运术"优化策略 [16][17] - FlashAttention优化计算顺序和流水排布，支持非对齐计算，前/反向性能提升50%/30% [19][20][21][24] - MatMul通过双级数据流水优化和矩阵子块斜向分配，Cube利用率提升10% [25][26][28] - Vector算子融合小算子减少数据搬运，性能提升3倍以上 [30][31][32] 昇腾鲲鹏协同优化 - Host-Device协同实现算子下发"零等待"（free时间<2%），训练吞吐再提升4%，累计加速达19.6% [33][42] - 等效计算同步消除和重排下发序优化使单次Host-Bound从2.1ms降至0.6ms [34][35][38] - 采用每NPU绑24核的粗粒度绑核方式，完全消除系统型持续Host-Bound [39][41] 内存优化技术 - Selective R/S技术实现多维度内存解剖，节省70%激活值内存 [33][43] - 建立包含细粒度重计算和Swap策略的"显微手术器械库"，支持MLA、RmsNorm等模块优化 [45][46][48] - 创新内存管理机制，通过贪心算法和Swap带宽分析确定最优策略组合 [51][52] 行业影响 - 方案为Pangu Ultra MoE 718B模型训练提供高效低成本解决方案，扫清大规模训练障碍 [18][42][43][53] - 技术突破展现公司在AI算力领域深厚积累，为行业提供参考路径 [54]

上帝视角的昇腾MoE训练智能交通系统，Adaptive Pipe&EDPB让训练效率提升70%

华尔街见闻· 2025-06-03 21:05

混合专家（MoE）模型的发展与挑战 - 混合专家（MoE）模型通过动态路由机制分配输入token给不同专家网络，高效扩展模型参数并提升复杂任务处理能力 [1] - MoE模型在分布式集群训练时面临效率不足问题，主要因计算/通信等待和负载不均导致50%以上训练时间浪费 [2] MoE训练效率的核心瓶颈 - 专家并行（EP）引入All-to-All通信依赖，导致计算单元空闲等待，串行执行模式加剧资源闲置 [2] - 负载不均表现为热专家频繁调用（如部分专家使用率过高）与冷专家闲置，同时数据长度差异和模型层计算量不均导致跨设备等待 [2] 华为的优化方案架构 - 构建AutoDeploy仿真平台，通过三维建模和昇腾硬件映射，1小时内模拟百万次训练场景，精度达90%，为Pangu Ultra MoE 718B模型匹配出TP8/PP16/VPP2/EP32最优并行方案 [4][5] - Adaptive Pipe通信掩盖框架采用层次化All-to-All（跨机器通信加速1倍）和自适应细粒度调度，实现>98%通信掩盖，内存占用减半并降低计算空泡 [6][7] - EDPB全局负载均衡通过专家动态迁移、数据重排和虚拟流水线优化，解决负载不均问题，提升训练吞吐25.5% [10][14] 关键技术实现细节 - 层次化All-to-All分两步完成：跨机器数据块聚合+机内高速交换，减少数据拷贝量 [6] - 专家动态迁移采用多目标优化，预测负载趋势并实现毫秒级响应，结合双层贪心优化架构平衡计算与通信 [12][16] - 数据重排通过线性模型量化计算耗时，贪心算法构建最小耗时序列，保持精度无损下均衡Attention计算负载 [14] 系统整体性能提升 - 在Pangu Ultra MoE 718B模型8K序列训练中，Adaptive Pipe &EDPB方案实现端到端72.6%吞吐提升，类比智慧交通系统解决通信与计算阻塞 [17] - 虚拟流水线技术分离MTP层与输出层，将Embedding计算前移，规避Stage间等待问题 [14][19]

混合专家（MoE）模型

Telecommunications Equipment

Adaptive Pipe & EDPB

AutoDeploy

DeployMind

Pangu Ultra MoE 718B模型

混合专家（MoE）模型

Telecommunications Equipment

Adaptive Pipe & EDPB

AutoDeploy

DeployMind

Pangu Ultra MoE 718B模型

专家一半时间在摸鱼？Adaptive Pipe & EDPB让昇腾MoE训练效率提升70%

雷峰网· 2025-06-03 15:17

MoE模型训练效率挑战 - 混合专家(MoE)模型通过动态路由机制分配token给不同专家网络，实现参数规模化扩展和复杂任务处理优势[2] - 分布式训练中存在两大效率瓶颈：1)专家并行引入计算与通信等待，导致50%以上训练时间浪费在空闲等待[3][4]；2)负载不均导致热专家过载而冷专家闲置[4] - 问题类比为城市交通拥堵：1)人车混行阻塞(计算等待通信)；2)车道分配僵化(静态专家分配)[4] AutoDeploy仿真平台 - 基于昇腾硬件的数字孪生平台，通过三维建模和高精度硬件映射，1小时内模拟百万次训练场景，实现90%精度的最优并行策略自动选择[8] - 针对Pangu Ultra MoE 718B模型，自动求解出TP8/PP16/VPP2/EP32并行方案，平衡计算/通信/内存[8] Adaptive Pipe通信优化 - 采用层次化All-to-All通信：分机器间数据收集和机器内高速交换两步，相比传统All-to-All加速1倍[10] - 自适应细粒度调度将流水线并行内存占用减半，实现98%以上EP通信掩盖，计算几乎不受通信等待束缚[11] EDPB负载均衡技术 - 专家预测动态迁移(E)：通过多目标优化实现专家跨设备智能流动，具备预测先行/双层优化/智能触发三大特性[17] - 数据重排(D)和虚拟流水线均衡(P)分别解决Attention计算不均和混合结构层间等待问题[19] - 整体在最优并行基础上带来25.5%吞吐提升[14] 系统综合收益 - 在Pangu Ultra MoE 718B模型8K序列训练中，Adaptive Pipe单独提升37.5%，EDPB再提升25.5%，端到端总吞吐提升达72.6%[22][23] - 方案类比为智慧交通系统：通信掩盖相当于行人地下通道，动态迁移相当于智能可变车道[22]

量子位· 2025-06-03 14:21

MoE训练效率问题与华为解决方案 - MoE模型训练面临两大效率挑战：专家并行引入的计算/通信等待（50%以上训练时间浪费）和负载不均导致的计算等待[2][4][7] - 华为提出Adaptive Pipe & EDPB优化方案，通过"通信掩盖+动态负载均衡"实现无等待训练，类比"智慧交通系统"解决拥堵问题[3][9] 通信优化技术 - DeployMind仿真平台可在1小时内模拟百万次训练场景，为Pangu Ultra MoE 718B模型找到TP8/PP16/VPP2/EP32最优并行方案[10][11] - 层次化All-to-All通信将跨机传输减少50%，通过机内高速通道完成数据交换[15][16] - Adaptive Pipe框架实现98%通信掩盖率，权重占用减少50%，支持分层通信与细粒度调度[12][18][19] 负载均衡技术 - EDPB方案包含三大创新：专家预测动态迁移（E）、数据重排（D）、虚拟流水线均衡（P），整体提升训练吞吐25.5%[21][22][23][27][28] - 专家迁移技术采用预测+双层优化+智能触发机制，实现计算零存储开销和毫秒级响应[24][25] - 数据重排方案通过线性模型量化耗时，在精度无损前提下实现批次内负载均衡[27] 实际效果验证 - 在Pangu Ultra MoE 718B模型8K序列训练中，华为方案实现端到端72.6%吞吐提升[29][30] - 最优并行策略结合通信掩盖与动态迁移技术，达成计算/通信/内存三要素最佳平衡[11][19][22]

MoE（混合专家）

通信技术

Adaptive Pipe & EDPB优化方案

DeployMind仿真平台

Pangu Ultra MoE 718B模型

MoE（混合专家）

通信技术

Adaptive Pipe & EDPB优化方案

DeployMind仿真平台

Pangu Ultra MoE 718B模型

华为AI实力！不用GPU，大模型每2秒吃透一道高数大题！

第一财经· 2025-05-30 17:32

华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构前3层稠密层后58层MoE层隐层维度7680 配备256个路由专家和1个共享专家专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战：并行策略配置困难 All-to-All通信瓶颈系统负载分布不均算子调度开销过大训练流程管理复杂大规模扩展受限 [7][8] - 通过并行策略智能选择计算通信深度融合全局动态负载平衡等技术创新显著提升集群效率建模仿真驱动智能并行优化确定最优部署配置：16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架实现70%激活值内存节省微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术支持训练推理共卡全共卡等灵活部署模式实现秒级训推状态转换后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中采用训练推理混合并行策略实现每超节点35K Tokens/s高吞吐支持高效扩展超过4K卡集群 [32][34]

Artificial Intelligence

大模型训练

Telecommunications Equipment

昇腾+Pangu Ultra MoE

昇腾Atlas 800T A2

CloudMatrix 384

Artificial Intelligence

大模型训练

Telecommunications Equipment

昇腾+Pangu Ultra MoE

昇腾Atlas 800T A2

CloudMatrix 384