准万亿MoE模型

搜索文档
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
雷峰网· 2025-05-29 19:44
模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节 [1][4] - 模型采用256个路由专家,每个token激活8个专家,总参数量718B,激活量39B [5] - 引入Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,梯度突刺率下降51%,支撑10+T tokens数据长稳训练 [9][11][12][14] 硬件协同优化 - 模型隐藏维度设置为7680维,精准匹配DaVinci芯片的16×16 MatMul单元,充分发挥计算潜力 [7] - 采用61层Transformer结构并预留MTP层空间,优化流水线并行效率 [7] - 专家数量设为256(2^8),提升All-to-All通信效率,加速分布式训练 [7] 创新技术方案 - 提出MLA(Multi-head Latent Attention)注意力机制,压缩KV Cache空间,缓解推理内存瓶颈 [6] - 采用MTP(Multi-token Prediction)多头扩展策略,投机接受长度提升38% [23][25][27] - 使用Dropless训练策略避免Drop&Pad训推不一致问题,提升数据效率 [6] 负载均衡优化 - 提出EP-Group负载均衡方法,相比Micro-batch方案平均提升1.5个点 [16][18][19][20] - 该方法允许单个micro batch不均衡,但保证EP组内整体均衡,促进专家特化 [19][20] - 不同语言数据(阿拉伯语/德语/法语/俄语)对专家选择呈现显著差异 [22] 性能表现 - 在C-Eval、CLUEWSC、MMLU等多项基准测试中表现优于DeepSeek V3-0324等主流模型 [8] - 在AIME2024推理测试中得分81.3,优于DeepSeek R1的79.8 [8] - 数学能力测试MATH500得分97.4,表现突出 [8] 强化学习优化 - 采用迭代难例挖掘策略,从数据池筛选回复通过率(0,1)的数据保持训练效率 [29][32] - 设计多能力项奖励系统,数学/代码采用规则奖励,通用能力使用LLM-as-a-judge评分 [32] - 奖励函数进行归一化处理,确保模型在数学/代码/通用能力的协同提升 [32]