华为揭秘:国产昇腾训出世界一流大模型
观察者网·2025-05-30 16:35
华为盘古Ultra MoE模型发布 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE 这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型 [1] - 公司发布盘古Ultra MoE模型架构和训练方法的技术报告 披露众多技术细节 体现昇腾在超大规模MoE训练性能上的跨越 [1] - 模型架构采用Depth-Scaled Sandwich-Norm稳定架构和TinyInit小初始化方法 在昇腾平台上实现超过18TB数据的长期稳定训练 [1] - 提出EP loss负载优化方法 保证专家间负载均衡并提升领域特化能力 [1] - 使用业界先进的MLA和MTP架构 在预训练和后训练阶段采用Dropless训练策略 实现模型效果与效率的最佳平衡 [1] 训练方法创新 - 在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架关键技术 使RL后训练进入超节点集群时代 [2] - 预训练系统加速技术完成迭代升级 包括自适应流水掩盖策略 算子执行序优化 内存优化策略 数据重排等 [2] - 技术升级使万卡集群预训练MFU由30%大幅提升至41% [2] - 盘古Pro MoE大模型参数量720亿 激活160亿参数量 通过动态激活专家网络设计 实现媲美千亿级模型的性能 [2] - 盘古Pro MoE在SuperCLUE 2025年5月排行榜上位居千亿参数量以内大模型排行并列国内第一 [2] 行业影响 - 公司完成国产算力+国产模型全流程自主可控的训练实践 [3] - 集群训练系统性能实现业界领先 [3] - 国产AI基础设施自主创新能力得到进一步验证 为中国人工智能产业发展提供支持 [3]