模型架构与训练方法 - 华为盘古团队发布Pangu Ultra MoE模型技术报告,披露准万亿MoE模型在昇腾NPU上的全流程训练细节[1] - 模型采用Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,实现10+T tokens数据的长期稳定训练[1][8] - 提出EP group loss负载优化方法,保证专家负载均衡并提升领域特化能力,同时采用MLA和MTP先进架构及Dropless训练策略[1][3] 性能与规模 - 模型参数规模达718B,激活量39B,采用256个路由专家,每个token激活8个专家[5] - 预训练阶段在6k-10k张NPU上进行,具备128k长序列能力,后训练阶段移除负载均衡辅助损失以提升学习效率[3] - 在多个权威评测集上表现稳健,如C-Eval 90.8、MMLU 91.5、AIME2024 81.3等,部分指标领先竞品[6] 技术创新 - DSSN+TinyInit方案使梯度突刺率从1.54%降至0.76%,相对下降51%,显著提升训练稳定性[8][11] - EP-Group负载均衡loss相比Micro-batch方案平均提升1.5个点,同时促进专家特化[15][16] - MTP头延迟扩展策略使投机接受长度提升38%,双头扩增效果与从头训练相当[21][23] 训练优化 - 隐藏层设为7680维,精准匹配昇腾芯片16×16 MatMul单元,充分发挥计算潜力[5] - 采用61层Transformer结构,优化流水线并行调度,减少pipeline气泡[5] - 专家数量按2⁸=256设置,提升All-to-All通信效率,加速分布式训练[5] 强化学习系统 - 设计迭代难例挖掘机制,从数据池筛选通过率(0,1)的数据提升RL训练效率[25][27] - 多能力项奖励系统结合规则奖励与LLM-as-a-judge评分,确保数学、代码等能力协同提升[27] - 参考GRPO算法但优化了超大模型场景下的训练浪费和能力不匹配问题[25]
Pangu Ultra准万亿MoE模型:业界一流,源自昇腾原生的长稳训练
第一财经·2025-05-29 18:50