昇腾架构 - 财报，业绩电话会，研报，新闻

昇腾架构

搜索文档

雷峰网· 2025-05-30 17:48

华为昇腾与Pangu Ultra MoE技术创新 - 公司通过"昇腾+Pangu Ultra MoE"组合实现国产算力与模型全流程自主可控训练闭环，集群训练系统性能达行业领先水平[4] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%，后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[5] - 首次披露高效打通大稀疏比MoE强化学习后训练框架的关键技术，推动RL后训练进入超节点集群时代[6][7] MoE模型训练技术痛点与解决方案 - 当前MoE训练存在六大挑战：并行策略配置困难、All-to-All通信瓶颈、系统负载不均、算子调度开销大、训练流程管理复杂、大规模扩展受限[10][11] - 公司提出三阶段解决方案： - 提升训练集群利用率：通过智能并行优化、分层All-to-All通信去冗余、EDP全局负载均衡策略，将专家并行通信开销降至<2%[14][18][19] - 释放昇腾单节点算力：采用昇腾亲和算子加速、Host-Device协同下发优化、Selective R/S内存手术方案，实现MBS翻倍和70%激活值内存节省[22][25][27] - RL后训练创新：RL Fusion训推共卡技术支持多维并行策略动态切换，准异步机制StaleSync使训练吞吐提升50%[28][30] Pangu Ultra MoE模型性能突破 - 模型架构：7180亿参数，61层Transformer（3稠密层+58 MoE层），256路由专家+1共享专家，隐层维度7680[35] - 预训练性能：6K-10K卡昇腾800T A2集群实现8K序列长度下41% MFU，预计CloudMatrix 384超节点可支撑MFU>50%[35] - 后训练性能：CloudMatrix 384超节点实现35K Tokens/s吞吐，支持4K卡集群扩展，等效每2秒完成高数大题级推理任务[36] 技术架构创新细节 - 并行策略：采用16路流水线并行+8路张量并行+32路专家并行+2路虚拟流水线并行的混合架构[15] - 通信优化：分层专家并行通信结合虚拟流水线并行掩盖策略，实现计算通信深度融合[18] - 内存管理：构建自适应内存优化框架，支持模块级到张量级的细粒度内存调配[26] - 训推协同：支持分离部署/训推共卡/全共卡三种模式，秒级完成状态转换[28][33]