华为发布准万亿模型Pangu Ultra MoE模型架构和训练细节
快讯·2025-05-30 15:33
华为盘古Ultra MoE模型发布 - 公司推出参数规模高达7180亿的全新模型盘古Ultra MoE [1] - 该模型为全流程在昇腾AI计算平台上训练的准万亿MoE模型 [1] - 公司同时发布模型架构和训练方法的技术报告 [1] - 技术报告披露众多细节体现昇腾在超大规模MoE训练性能上的跨越 [1] 技术突破 - 训练超大规模和极高稀疏性的MoE模型极具挑战 [1] - 训练过程中的稳定性往往难以保障 [1] - 盘古团队在模型架构和训练方法上进行了创新性设计 [1] - 成功在昇腾平台上实现准万亿MoE模型的全流程训练 [1]