Workflow
Pangu Ultra MoE模型
icon
搜索文档
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
华尔街见闻· 2025-05-30 17:38
华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环,集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%,后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战:并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招:建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招:昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术,支持训练推理共卡、全共卡等多种灵活部署模式,实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue,系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力,支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数,包含61层Transformer,前3层为稠密层,后58层为MoE层[38] - 模型隐层维度达7680,配备256个路由专家和1个共享专家,专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下,模型算力利用率(MFU)达到41%,预计可支撑训练集群MFU>50%[38]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
雷峰网· 2025-05-29 19:44
模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节 [1][4] - 模型采用256个路由专家,每个token激活8个专家,总参数量718B,激活量39B [5] - 引入Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,梯度突刺率下降51%,支撑10+T tokens数据长稳训练 [9][11][12][14] 硬件协同优化 - 模型隐藏维度设置为7680维,精准匹配DaVinci芯片的16×16 MatMul单元,充分发挥计算潜力 [7] - 采用61层Transformer结构并预留MTP层空间,优化流水线并行效率 [7] - 专家数量设为256(2^8),提升All-to-All通信效率,加速分布式训练 [7] 创新技术方案 - 提出MLA(Multi-head Latent Attention)注意力机制,压缩KV Cache空间,缓解推理内存瓶颈 [6] - 采用MTP(Multi-token Prediction)多头扩展策略,投机接受长度提升38% [23][25][27] - 使用Dropless训练策略避免Drop&Pad训推不一致问题,提升数据效率 [6] 负载均衡优化 - 提出EP-Group负载均衡方法,相比Micro-batch方案平均提升1.5个点 [16][18][19][20] - 该方法允许单个micro batch不均衡,但保证EP组内整体均衡,促进专家特化 [19][20] - 不同语言数据(阿拉伯语/德语/法语/俄语)对专家选择呈现显著差异 [22] 性能表现 - 在C-Eval、CLUEWSC、MMLU等多项基准测试中表现优于DeepSeek V3-0324等主流模型 [8] - 在AIME2024推理测试中得分81.3,优于DeepSeek R1的79.8 [8] - 数学能力测试MATH500得分97.4,表现突出 [8] 强化学习优化 - 采用迭代难例挖掘策略,从数据池筛选回复通过率(0,1)的数据保持训练效率 [29][32] - 设计多能力项奖励系统,数学/代码采用规则奖励,通用能力使用LLM-as-a-judge评分 [32] - 奖励函数进行归一化处理,确保模型在数学/代码/通用能力的协同提升 [32]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经· 2025-05-29 18:50
模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节[1] - 模型采用Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,实现10+T tokens数据的长期稳定训练[1][8] - 提出EP group loss负载优化方法,保证专家负载均衡并提升领域特化能力,同时采用MLA和MTP先进架构及Dropless训练策略[1][3] 性能与规模 - 模型参数规模达718B,激活量39B,采用256个路由专家,每个token激活8个专家[5] - 预训练阶段在6k-10k张NPU上进行,具备128k长序列能力,后训练阶段移除负载均衡辅助损失以提升学习效率[3] - 在多个权威评测集上表现稳健,如C-Eval 90.8、MMLU 91.5、AIME2024 81.3等,部分指标领先竞品[6] 技术创新 - DSSN+TinyInit方案使梯度突刺率从1.54%降至0.76%,相对下降51%,显著提升训练稳定性[8][11] - EP-Group负载均衡loss相比Micro-batch方案平均提升1.5个点,同时促进专家特化[15][16] - MTP头延迟扩展策略使投机接受长度提升38%,双头扩增效果与从头训练相当[21][23] 训练优化 - 隐藏层设为7680维,精准匹配昇腾芯片16×16 MatMul单元,充分发挥计算潜力[5] - 采用61层Transformer结构,优化流水线并行调度,减少pipeline气泡[5] - 专家数量按2⁸=256设置,提升All-to-All通信效率,加速分布式训练[5] 强化学习系统 - 设计迭代难例挖掘机制,从数据池筛选通过率(0,1)的数据提升RL训练效率[25][27] - 多能力项奖励系统结合规则奖励与LLM-as-a-judge评分,确保数学、代码等能力协同提升[27] - 参考GRPO算法但优化了超大模型场景下的训练浪费和能力不匹配问题[25]
训练大模型,终于可以“既要又要还要”了
虎嗅APP· 2025-05-29 18:34
华为Pangu Ultra MoE模型技术突破 - 华为推出参数规模高达718B的准万亿MoE模型Pangu Ultra MoE 该模型融合计算、通信和内存等多维度指标 在昇腾NPU平台上实现最佳平衡 [6] - 模型采用256个路由专家 每个token激活8个专家 总参数量718B 激活量39B 具有超大规模和超高稀疏比特性 [6] - 引入MLA注意力机制 有效压缩KV Cache空间 缓解推理阶段内存带宽瓶颈 优于传统GQA方案 [6] 模型架构创新 - 采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 使梯度突刺率从1.54%下降到0.76% 相对下降51% [13][17] - 设计EP-Group负载均衡loss 相比主流Micro-batch方案在大部分任务上平均提升1.5个点 [20][21] - 采用单头MTP进行训练 后续复用参数扩展至多头结构 实现多Token投机推理 接受长度提升约38% [26][27] 训练方法优化 - 全流程采用dropless训练模式 避免Drop&Pad训推不一致问题 提升训练数据效率 [7] - 预训练阶段在6k到10k张NPU上进行 具备128k长序列能力 [8] - 采用迭代难例挖掘与多能力项均衡的奖励函数 参考GRPO算法提升训练效率与推理性能 [29][31] 昇腾硬件亲和设计 - 隐藏维度设置为7680维 精准匹配DaVinci芯片的16×16 MatMul单元 充分发挥计算潜力 [7] - 设置61层Transformer结构 预留额外MTP层空间 保障计算负载均衡的流水线调度 [7] - 路由专家数量设为256 在TP×EP并行下提升All-to-All通信效率 加速分布式训练 [7] 模型性能表现 - 在C-Eval评测中得分90.8 CLUEWSC得分94.8 MMLU得分91.5 整体效果优于主流模型 [9] - 在推理能力评测中 AIME2024得分81.3 GPQA-Diamond得分75.3 MATH500得分97.4 [9] - 强化学习训练系统有效解决了多能力协同提升问题 保持模型在数学、代码和通用能力的均衡表现 [31]