华为揭秘：国产昇腾训出世界一流大模型

华为盘古Ultra MoE模型发布 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型 [1] - 公司发布盘古Ultra MoE模型架构和训练方法的技术报告披露众多技术细节体现昇腾在超大规模MoE训练性能上的跨越 [1] - 模型架构采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法在昇腾平台上实现超过18TB数据的长期稳定训练 [1] - 提出EP loss负载优化方法保证专家间负载均衡并提升领域特化能力 [1] - 使用业界先进的MLA和MTP架构在预训练和后训练阶段采用Dropless训练策略实现模型效果与效率的最佳平衡 [1] 训练方法创新 - 在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架关键技术使RL后训练进入超节点集群时代 [2] - 预训练系统加速技术完成迭代升级包括自适应流水掩盖策略算子执行序优化内存优化策略数据重排等 [2] - 技术升级使万卡集群预训练MFU由30%大幅提升至41% [2] - 盘古Pro MoE大模型参数量720亿激活160亿参数量通过动态激活专家网络设计实现媲美千亿级模型的性能 [2] - 盘古Pro MoE在SuperCLUE 2025年5月排行榜上位居千亿参数量以内大模型排行并列国内第一 [2] 行业影响 - 公司完成国产算力+国产模型全流程自主可控的训练实践 [3] - 集群训练系统性能实现业界领先 [3] - 国产AI基础设施自主创新能力得到进一步验证为中国人工智能产业发展提供支持 [3]