行业投资评级 - 报告未明确提及行业投资评级 [1][2][3][4][5][6] 核心观点 - 华为盘古大模型从追赶SOTA模型转向为自研异腾硬件量身定制模型架构,构建软硬一体AI技术体系 [4][12] - 盘古大模型演进路径:PanGu-α(2000亿参数)→ PanGu-Σ(1.085万亿参数稀疏架构)→ 盘古3.0("5+N+X"行业架构)→ 盘古5.5(全面拥抱MoE架构) [12][15][17][21][27][30] - Pangu Pro MoE采用分组专家混合(MoGE)架构解决负载不均衡问题,实现理论负载均衡 [37][38][45][46] - Pangu Ultra MoE通过仿真先行设计方法优化模型架构,在6000卡异腾集群上实现30%模型算力利用率(MFU) [64][68][71][82] - CloudMatrix基础设施通过统一总线(UB)网络和三平面架构支撑大规模AI推理,DeepSeek-R1模型推理效率达1.29 tokens/s/TFLOPS [88][93][97][102][113] 盘古大模型演进 - PanGu-α(2021年):基于2048颗异腾910和MindSpore框架训练,采用五维并行策略,验证全栈自主技术路线可行性 [12][13] - PanGu-Σ(2023年):1.085万亿参数稀疏模型,采用随机路由专家(RRE)和专家计算存储分离(ECSS)技术,训练吞吐量提升6.3倍 [15][17][18] - 盘古3.0(2023年):提出"5+N+X"三层架构,覆盖气象、药物分子等行业应用,千卡训练长稳率达90% [21][22][23][24] - 盘古5.5(2025年):推出Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数),全面优化MoE架构适配异腾硬件 [30][31][32] Pangu Pro MoE技术亮点 - MoGE架构将64专家分为8组,每组绑定1个NPU,强制每组激活1专家,实现理论负载均衡(IS=0) [45][46][54] - 训练阶段采用EP=2和PP=5流水线优化,MFU提升35%;推理阶段实现每卡1148 tokens/s吞吐量 [52][56][57] - 为异腾硬件定制MulAttention和SwiftGMM融合算子,注意力计算性能提升4.5倍 [59][61] Pangu Ultra MoE系统优化 - 通过仿真平台从10,000个候选配置中选出最优架构(61层/7680隐层/256专家),仿真与真实训练吻合度达90.1% [64][68][71] - 采用Dropless路由和EP-Group辅助损失,避免8% token丢弃率对模型性能的影响 [72][76] - 分层专家并行通信和自适应流水线重叠技术实现95%通信重叠率,训练效率提升58.7% [77][78][81][82] CloudMatrix基础设施 - UB网络实现NPU间164GB/s带宽和1.9μs延迟,跨节点性能衰减低于3% [102][121][122] - PDC解耦架构将Prefill、Decode与Caching分离为独立资源池,支持弹性伸缩 [97][98][101] - AIV-Direct通信机制绕过SDMA引擎,使通信延迟降低至微观指令级别 [108][109][132] - 异腾910C NPU采用AI Cube和AI Vector异构设计,支撑算子级深度融合 [132]
产业深度:【AI产业深度】华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券·2025-08-06 17:19