昇腾Atlas 800T A2 - 财报，业绩电话会，研报，新闻

昇腾Atlas 800T A2

搜索文档

虎嗅APP· 2025-05-30 18:18

华为MoE架构技术突破 - 华为提出MoGE架构优化方案，克服传统MoE负载不均衡及效率瓶颈问题，实现降本增效并便于训练部署[1] - 昇腾+Pangu Ultra MoE组合实现国产算力与模型全流程自主可控，预训练阶段万卡集群MFU达41%，后训练单超节点吞吐35K Tokens/s[2] - 公司首次披露昇腾CloudMatrix 384超节点上大稀疏比MoE强化学习后训练框架关键技术，推动RL后训练进入超节点集群时代[2] 当前MoE训练系统六大挑战 - 并行策略配置困难：多种并行策略组合与稀疏激活导致负载不平衡，难以人工优化[3] - All-to-All通信瓶颈：大规模token路由交换占用带宽，造成计算资源空闲等待[4] - 系统负载分布不均：注意力机制序列长度差异、专家激活频率不平衡等多层次不均衡[4] - 算子调度开销过大：动态路由引入高频小规模算子操作，NPU利用率显著降低[4] - 训练流程管理复杂：多模型实例与多任务场景增加资源分配难度[4] - 大规模扩展受限：参数重新映射机制与复杂数据通信制约部署规模[4] 训练集群利用率提升方案 - 智能并行优化：通过建模仿真框架自动确定最优部署配置，包括16路流水线并行、8路张量并行等[7] - Adaptive Pipe通信优化：分层All-to-All通信去冗余，专家并行通信开销降至<2%[10] - EDP全局负载均衡：专家负载预测+动态调节+注意力数据重排技术，解决多通信域负载不均[12] 昇腾单节点算力释放 - 训练算子加速：针对FlashAttention等关键算子优化，提升75%以上计算耗时算子性能[15] - Host-Device协同优化：分层消除同步型/系统性Host-Bound问题，MoE训练中Host-Bound占比<2%[16] - 内存精准管理：通用化重计算+Swap机制实现70%激活值内存节省，MBS翻倍仍稳定[17] RL后训练关键技术 - RL Fusion训推共卡技术：支持多并行策略动态切换，秒级完成状态转换，集群利用率翻倍[20] - 准异步机制StaleSync：容忍梯度陈旧性，系统吞吐提升50%[21] - 分布式数据队列DistQueue：实现多任务数据拆分与动态读取，缓解数据阻塞[21] Pangu Ultra MoE模型性能 - 7180亿参数规模，61层Transformer含58层MoE，隐层维度7680配备256路由专家[26] - 预训练阶段6K-10K卡集群MFU达41%，预计未来可扩展至MFU>50%[26] - RL后训练实现每超节点35K Tokens/s吞吐，4K卡集群等效2秒完成高数大题解析[27]

大模型

MoE模型

Telecommunications Equipment

Telecommunications Equipment

昇腾+Pangu Ultra MoE

昇腾Atlas 800T A2

昇腾CloudMatrix 384

每2秒吃透一道高数大题！华为终于揭秘准万亿MoE昇腾训练系统全流程

华尔街见闻· 2025-05-30 17:38

华为Pangu Ultra MoE大模型技术突破 - 华为通过"昇腾+Pan gu Ultra MoE"组合实现国产算力与国产模型全流程自主可控的训练闭环，集群训练系统性能达到行业领先水平[3] - 预训练阶段昇腾Atlas 800T A2万卡集群MFU提升至41%，后训练阶段单CloudMatrix 384超节点吞吐达35K Tokens/s[4] - 首次披露在昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术[4] 技术挑战与解决方案 - MoE预训练和强化学习后训练存在六大挑战：并行策略配置困难、All-to-All通信瓶颈、系统负载分布不均、算子调度开销过大、训练流程管理复杂、大规模扩展受限[7][8][10][11][12][13] - 提升训练集群利用率三招：建模仿真驱动的智能并行优化、Adaptive Pipe前反向通算掩盖、EDP Balance全局动态负载均衡[15][16][17][20][22][23] - 释放昇腾单节点算力三招：昇腾亲和的训练算子加速、Host-Device协同的算子下发优化、Selective R/S精准的内存手术方案[26][28][29][30] 强化学习后训练创新 - 首次披露RL Fusion训推共卡技术，支持训练推理共卡、全共卡等多种灵活部署模式，实现RL后训练集群利用率翻倍[33][34] - 设计准异步机制StaleSync和分布式数据队列DistQueue，系统整体训练吞吐提升50%[36] - 在Pangu Ultra MoE昇腾CloudMatrix 384超节点集群后训练中实现每超节点35K Tokens/s高吞吐能力，支持高效扩展超过4K卡集群[39] 模型性能与架构 - Pangu Ultra MoE模型拥有7180亿参数，包含61层Transformer，前3层为稠密层，后58层为MoE层[38] - 模型隐层维度达7680，配备256个路由专家和1个共享专家，专家隐层维度为2048[38] - 在序列长度为8K、万卡训练集群条件下，模型算力利用率(MFU)达到41%，预计可支撑训练集群MFU>50%[38]

华为AI实力！不用GPU，大模型每2秒吃透一道高数大题！

第一财经· 2025-05-30 17:32

华为Pangu Ultra MoE大模型技术突破 - 实现国产算力与国产模型全流程自主可控训练闭环昇腾Atlas 800T A2万卡集群MFU提升至41% 单CloudMatrix 384超节点吞吐达35K Tokens/s [2][3] - 首次披露昇腾CloudMatrix 384超节点上高效打通大稀疏比MoE强化学习后训练框架的关键技术让以强化学习为核心的后训练进入超节点集群时代 [3][4] - 7180亿参数规模 61层Transformer结构前3层稠密层后58层MoE层隐层维度7680 配备256个路由专家和1个共享专家专家隐层维度2048 [32] 技术痛点与解决方案 - 当前MoE预训练和强化学习后训练存在六大挑战：并行策略配置困难 All-to-All通信瓶颈系统负载分布不均算子调度开销过大训练流程管理复杂大规模扩展受限 [7][8] - 通过并行策略智能选择计算通信深度融合全局动态负载平衡等技术创新显著提升集群效率建模仿真驱动智能并行优化确定最优部署配置：16路流水线并行 8路张量并行 32路专家并行 2路虚拟流水线并行 [11][12][13] - 创新设计分层All-to-All通信去冗余机制专家并行通信开销降至<2% 采用EDP全局负载均衡优化策略实现设备间计算负载精确平衡 [14][17] 昇腾单节点算力优化 - 通过昇腾架构深度适配的训练算子加速关键算子性能显著跃升 Host-Device协同优化将MoE训练中Host-Bound占比控制在2%以下 [21][23] - 构建精密内存优化框架实现70%激活值内存节省微批处理规模提升至原来两倍 [24][25] - 采用RL Fusion训推共卡技术支持训练推理共卡全共卡等灵活部署模式实现秒级训推状态转换后训练集群利用率翻倍 [27][28] 强化学习后训练创新 - 设计准异步机制StaleSync 让不同RL阶段任务在陈旧度阈值内并行执行系统整体训练吞吐提升50% [29] - 采用分布式数据队列DistQueue 有效缓解不同计算任务间数据阻塞为后训练任务高效调度提供支持 [29] - 在昇腾CloudMatrix 384超节点集群后训练中采用训练推理混合并行策略实现每超节点35K Tokens/s高吞吐支持高效扩展超过4K卡集群 [32][34]

Artificial Intelligence

大模型训练

Telecommunications Equipment

昇腾+Pangu Ultra MoE

昇腾Atlas 800T A2

CloudMatrix 384

Artificial Intelligence

大模型训练

Telecommunications Equipment

昇腾+Pangu Ultra MoE

昇腾Atlas 800T A2

CloudMatrix 384