Pangu Ultra MoE模型

搜索文档

华尔街见闻· 2025-05-30 17:38

华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环，集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%，后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战：并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招：建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招：昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术，支持训练推理共卡、全共卡等多种灵活部署模式，实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue，系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力，支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数，包含61层Transformer，前3层为稠密层，后58层为MoE层[38] - 模型隐层维度达7680，配备256个路由专家和1个共享专家，专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下，模型算力利用率(MFU)达到41%，预计可支撑训练集群MFU>50%[38]

并行策略

Pangu Ultra准万亿MoE模型：业界一流，源自昇腾原生的长稳训练

雷峰网· 2025-05-29 19:44

模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告，披露准万亿MoE模型在昇腾NPU上的全流程训练细节 [1][4] - 模型采用256个路由专家，每个token激活8个专家，总参数量718B，激活量39B [5] - 引入Depth-Scaled Sandwich-Norm（DSSN）稳定架构和TinyInit小初始化方法，梯度突刺率下降51%，支撑10+T tokens数据长稳训练 [9][11][12][14] 硬件协同优化 - 模型隐藏维度设置为7680维，精准匹配DaVinci芯片的16×16 MatMul单元，充分发挥计算潜力 [7] - 采用61层Transformer结构并预留MTP层空间，优化流水线并行效率 [7] - 专家数量设为256（2^8），提升All-to-All通信效率，加速分布式训练 [7] 创新技术方案 - 提出MLA（Multi-head Latent Attention）注意力机制，压缩KV Cache空间，缓解推理内存瓶颈 [6] - 采用MTP（Multi-token Prediction）多头扩展策略，投机接受长度提升38% [23][25][27] - 使用Dropless训练策略避免Drop&Pad训推不一致问题，提升数据效率 [6] 负载均衡优化 - 提出EP-Group负载均衡方法，相比Micro-batch方案平均提升1.5个点 [16][18][19][20] - 该方法允许单个micro batch不均衡，但保证EP组内整体均衡，促进专家特化 [19][20] - 不同语言数据（阿拉伯语/德语/法语/俄语）对专家选择呈现显著差异 [22] 性能表现 - 在C-Eval、CLUEWSC、MMLU等多项基准测试中表现优于DeepSeek V3-0324等主流模型 [8] - 在AIME2024推理测试中得分81.3，优于DeepSeek R1的79.8 [8] - 数学能力测试MATH500得分97.4，表现突出 [8] 强化学习优化 - 采用迭代难例挖掘策略，从数据池筛选回复通过率(0,1)的数据保持训练效率 [29][32] - 设计多能力项奖励系统，数学/代码采用规则奖励，通用能力使用LLM-as-a-judge评分 [32] - 奖励函数进行归一化处理，确保模型在数学/代码/通用能力的协同提升 [32]

准万亿MoE模型

Artificial Intelligence

Pangu Ultra MoE模型

准万亿MoE模型

Artificial Intelligence

Pangu Ultra MoE模型

Pangu Ultra准万亿MoE模型：业界一流，源自昇腾原生的长稳训练

第一财经· 2025-05-29 18:50

模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告，披露准万亿MoE模型在昇腾NPU上的全流程训练细节[1] - 模型采用Depth-Scaled Sandwich-Norm（DSSN）稳定架构和TinyInit小初始化方法，实现10+T tokens数据的长期稳定训练[1][8] - 提出EP group loss负载优化方法，保证专家负载均衡并提升领域特化能力，同时采用MLA和MTP先进架构及Dropless训练策略[1][3] 性能与规模 - 模型参数规模达718B，激活量39B，采用256个路由专家，每个token激活8个专家[5] - 预训练阶段在6k-10k张NPU上进行，具备128k长序列能力，后训练阶段移除负载均衡辅助损失以提升学习效率[3] - 在多个权威评测集上表现稳健，如C-Eval 90.8、MMLU 91.5、AIME2024 81.3等，部分指标领先竞品[6] 技术创新 - DSSN+TinyInit方案使梯度突刺率从1.54%降至0.76%，相对下降51%，显著提升训练稳定性[8][11] - EP-Group负载均衡loss相比Micro-batch方案平均提升1.5个点，同时促进专家特化[15][16] - MTP头延迟扩展策略使投机接受长度提升38%，双头扩增效果与从头训练相当[21][23] 训练优化 - 隐藏层设为7680维，精准匹配昇腾芯片16×16 MatMul单元，充分发挥计算潜力[5] - 采用61层Transformer结构，优化流水线并行调度，减少pipeline气泡[5] - 专家数量按2⁸=256设置，提升All-to-All通信效率，加速分布式训练[5] 强化学习系统 - 设计迭代难例挖掘机制，从数据池筛选通过率(0,1)的数据提升RL训练效率[25][27] - 多能力项奖励系统结合规则奖励与LLM-as-a-judge评分，确保数学、代码等能力协同提升[27] - 参考GRPO算法但优化了超大模型场景下的训练浪费和能力不匹配问题[25]

虎嗅APP· 2025-05-29 18:34

华为Pangu Ultra MoE模型技术突破 - 华为推出参数规模高达718B的准万亿MoE模型Pangu Ultra MoE 该模型融合计算、通信和内存等多维度指标在昇腾NPU平台上实现最佳平衡 [6] - 模型采用256个路由专家每个token激活8个专家总参数量718B 激活量39B 具有超大规模和超高稀疏比特性 [6] - 引入MLA注意力机制有效压缩KV Cache空间缓解推理阶段内存带宽瓶颈优于传统GQA方案 [6] 模型架构创新 - 采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法使梯度突刺率从1.54%下降到0.76% 相对下降51% [13][17] - 设计EP-Group负载均衡loss 相比主流Micro-batch方案在大部分任务上平均提升1.5个点 [20][21] - 采用单头MTP进行训练后续复用参数扩展至多头结构实现多Token投机推理接受长度提升约38% [26][27] 训练方法优化 - 全流程采用dropless训练模式避免Drop&Pad训推不一致问题提升训练数据效率 [7] - 预训练阶段在6k到10k张NPU上进行具备128k长序列能力 [8] - 采用迭代难例挖掘与多能力项均衡的奖励函数参考GRPO算法提升训练效率与推理性能 [29][31] 昇腾硬件亲和设计 - 隐藏维度设置为7680维精准匹配DaVinci芯片的16×16 MatMul单元充分发挥计算潜力 [7] - 设置61层Transformer结构预留额外MTP层空间保障计算负载均衡的流水线调度 [7] - 路由专家数量设为256 在TP×EP并行下提升All-to-All通信效率加速分布式训练 [7] 模型性能表现 - 在C-Eval评测中得分90.8 CLUEWSC得分94.8 MMLU得分91.5 整体效果优于主流模型 [9] - 在推理能力评测中 AIME2024得分81.3 GPQA-Diamond得分75.3 MATH500得分97.4 [9] - 强化学习训练系统有效解决了多能力协同提升问题保持模型在数学、代码和通用能力的均衡表现 [31]