Pangu Pro MoE

搜索文档

每日经济新闻· 2025-08-13 11:17

华为AI战略与技术革新 - 华为通过软硬协同构建全栈AI竞争力，通信设备行业迎来技术革新[1] - AI战略从对标SOTA模型转向为昇腾硬件量身定制架构，推出Pangu Pro MoE和Pangu Ultra MoE两大创新路径[1] - Pangu Pro MoE采用分组专家混合（MoGE）架构，Pangu Ultra MoE通过系统级优化解决负载不均衡问题，提升硬件效率[1] - 新一代AI基础设施CloudMatrix采用统一总线（UB）网络，构建分布式高速内存池，降低跨节点通信差异[1] - 支持PDC分离架构和大规模专家并行（LEP），将软硬协同创新拓展至AI系统工程领域[1] - 大模型从稠密转向MoE稀疏架构，华为聚焦分布式系统效率难题[1] 通信设备行业与相关指数 - 通信ETF（515880）跟踪通信设备指数（931160），聚焦通信设备制造及相关服务领域[1] - 指数成分股涵盖通信网络基础设施、通信终端设备生产及解决方案提供的上市公司证券[1] - 指数具有较高的技术含量和成长性特征[1] - 无股票账户投资者可关注国泰中证全指通信设备ETF联接C（007818）和A（007817）[1]

软硬协同技术革新

20cm速递｜创业板人工智能ETF国泰（159388）涨超2.7%，华为全栈AI竞争力获市场关注

每日经济新闻· 2025-08-13 10:55

华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力策略从对标业界SOTA模型转向为自研昇腾硬件量身定制模型架构 [1] - 在大模型层面推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径分别通过分组专家混合（MoGE）架构和系统级优化解决负载不均衡问题 [1] - 新一代AI基础设施CloudMatrix通过统一总线（UB）网络构建分布式高速内存池降低跨节点通信性能差异 [1] - 随着大语言模型转向混合专家（MoE）稀疏架构公司将解决专家负载不均衡作为软硬架构创新的核心方向 [1] - AI战略核心在于模型的每一次进化都是为了更紧密地与昇腾硬件协同构建软硬融合技术体系 [1] 创业板人工智能ETF产品特征 - 创业板人工智能ETF国泰（159388）跟踪创业板人工智能指数（970070）单日涨跌幅可达20% [2] - 指数从创业板市场中选取涉及人工智能技术开发、智能服务等业务的上市公司证券作为样本 [2] - 指数成分股涵盖软硬件研发、智能应用解决方案等多个细分领域具有显著的科技创新属性 [2]

创业(US:VEMLY)

Artificial Intelligence

Artificial Intelligence

软件ETF（515230）涨超2.0%，AI技术变革驱动行业估值重塑

每日经济新闻· 2025-08-11 15:08

华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力[1] - AI策略从对标业界SOTA模型转向为自研昇腾硬件定制模型架构[1] - Pangu Pro MoE采用分组专家混合（MoGE）架构解决负载不均衡问题[1] - Pangu Ultra MoE通过系统级优化适配昇腾硬件[1] - 新一代AI基础设施CloudMatrix通过统一总线网络构建分布式高速内存池[1] - 降低跨节点通信差异并支持PDC分离架构等软件创新[1] - 大模型转向混合专家（MoE）稀疏架构后聚焦解决专家负载不均衡系统性瓶颈[1] - 软硬协同路径已从单纯硬件或算法问题拓展至AI系统工程领域[1] 软件ETF产品信息 - 软件ETF（515230）跟踪软件指数（H30202）[1] - 指数从市场选取涉及软件开发、系统集成及互联网服务等业务的上市公司证券[1] - 反映软件行业相关上市公司证券的整体表现[1] - 指数成分涵盖应用软件、系统软件等信息技术领域细分行业[1] - 体现软件服务企业的技术创新能力和市场成长性[1] - 无股票账户投资者可关注国泰中证全指软件ETF联接A（012636）和C类（012637）[1]

虎嗅APP· 2025-06-06 18:10

华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型，大幅降低计算开销，在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化，Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s，在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略，根据任务特性"分工开小会"，让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案，Expert模块采用TP2+EP4策略，共享专家以TP8全芯并行[6] - 相比纯TP方案，Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作，同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略，实现通信数据压缩25%，AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案，实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略，克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率，最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍，达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍，解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE，实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法，推理步数降低14%[27] - 提出SpecReason反思投机算法，推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s，较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术，单卡BS可提升至146，最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s，提供更具性价比的MoE推理解决方案[32]