Pangu Pro MoE

搜索文档
通信ETF(515880)涨超5.6%,软硬协同技术革新或成行业新动能
每日经济新闻· 2025-08-13 11:17
华为AI战略与技术革新 - 华为通过软硬协同构建全栈AI竞争力,通信设备行业迎来技术革新[1] - AI战略从对标SOTA模型转向为昇腾硬件量身定制架构,推出Pangu Pro MoE和Pangu Ultra MoE两大创新路径[1] - Pangu Pro MoE采用分组专家混合(MoGE)架构,Pangu Ultra MoE通过系统级优化解决负载不均衡问题,提升硬件效率[1] - 新一代AI基础设施CloudMatrix采用统一总线(UB)网络,构建分布式高速内存池,降低跨节点通信差异[1] - 支持PDC分离架构和大规模专家并行(LEP),将软硬协同创新拓展至AI系统工程领域[1] - 大模型从稠密转向MoE稀疏架构,华为聚焦分布式系统效率难题[1] 通信设备行业与相关指数 - 通信ETF(515880)跟踪通信设备指数(931160),聚焦通信设备制造及相关服务领域[1] - 指数成分股涵盖通信网络基础设施、通信终端设备生产及解决方案提供的上市公司证券[1] - 指数具有较高的技术含量和成长性特征[1] - 无股票账户投资者可关注国泰中证全指通信设备ETF联接C(007818)和A(007817)[1]
20cm速递|创业板人工智能ETF国泰(159388)涨超2.7%,华为全栈AI竞争力获市场关注
每日经济新闻· 2025-08-13 10:55
华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力 策略从对标业界SOTA模型转向为自研昇腾硬件量身定制模型架构 [1] - 在大模型层面推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径 分别通过分组专家混合(MoGE)架构和系统级优化解决负载不均衡问题 [1] - 新一代AI基础设施CloudMatrix通过统一总线(UB)网络构建分布式高速内存池 降低跨节点通信性能差异 [1] - 随着大语言模型转向混合专家(MoE)稀疏架构 公司将解决专家负载不均衡作为软硬架构创新的核心方向 [1] - AI战略核心在于模型的每一次进化都是为了更紧密地与昇腾硬件协同 构建软硬融合技术体系 [1] 创业板人工智能ETF产品特征 - 创业板人工智能ETF国泰(159388)跟踪创业板人工智能指数(970070) 单日涨跌幅可达20% [2] - 指数从创业板市场中选取涉及人工智能技术开发、智能服务等业务的上市公司证券作为样本 [2] - 指数成分股涵盖软硬件研发、智能应用解决方案等多个细分领域 具有显著的科技创新属性 [2]
软件ETF(515230)涨超2.0%,AI技术变革驱动行业估值重塑
每日经济新闻· 2025-08-11 15:08
华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力[1] - AI策略从对标业界SOTA模型转向为自研昇腾硬件定制模型架构[1] - Pangu Pro MoE采用分组专家混合(MoGE)架构解决负载不均衡问题[1] - Pangu Ultra MoE通过系统级优化适配昇腾硬件[1] - 新一代AI基础设施CloudMatrix通过统一总线网络构建分布式高速内存池[1] - 降低跨节点通信差异并支持PDC分离架构等软件创新[1] - 大模型转向混合专家(MoE)稀疏架构后聚焦解决专家负载不均衡系统性瓶颈[1] - 软硬协同路径已从单纯硬件或算法问题拓展至AI系统工程领域[1] 软件ETF产品信息 - 软件ETF(515230)跟踪软件指数(H30202)[1] - 指数从市场选取涉及软件开发、系统集成及互联网服务等业务的上市公司证券[1] - 反映软件行业相关上市公司证券的整体表现[1] - 指数成分涵盖应用软件、系统软件等信息技术领域细分行业[1] - 体现软件服务企业的技术创新能力和市场成长性[1] - 无股票账户投资者可关注国泰中证全指软件ETF联接A(012636)和C类(012637)[1]
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
华为MoE架构技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,大幅降低计算开销,在SuperCLUE千亿内模型并列国内第一[3] - 通过系统级软硬协同优化、高性能算子融合优化、模型原生投机算法优化,Pangu Pro MoE推理性能提升6~8倍[3] - 在昇腾300I Duo上单卡吞吐可达321 tokens/s,在昇腾800I A2上更可飙升至1528 tokens/s[3] 分层混合并行(H2P)优化 - 提出创新性的H2P分层混合并行策略,根据任务特性"分工开小会",让每个部分在各自的通信域内高效执行[6] - Attention模块采用DP2+TP4并行方案,Expert模块采用TP2+EP4策略,共享专家以TP8全芯并行[6] - 相比纯TP方案,Decode吞吐性能提升33.1%[7] 通信瓶颈优化(TopoComm) - 提出SlimRing算法合并相邻通信步的后同步与前同步操作,同步次数降低35%[10] - 提出NHD算法通过拓扑亲和的分级通信等效提高链路有效带宽21%[10] - 引入INT8 AllGather + FP16 Reduce-Scatter混合量化通信策略,实现通信数据压缩25%,AllGather通信耗时降低39%[10] 计算&通信融合(DuoStream) - 提出DuoStream算子级多流融合通算优化方案,实现计算与通信的细粒度并发调度[11] - 构建GMMRS与AGMM两大融合策略,克服通信与数据搬运和计算之间的瓶颈[11] - 显著提升模型在昇腾平台上的推理效率,最大化释放硬件资源潜能[11] 融合算子优化 - 打造MulAttention和SwiftGMM两支精锐融合算子特种部队[16] - MulAttention实现Attention计算加速4.5倍,达成89%以上的数据搬运流水占用率[17] - SwiftGMM实现GMM计算加速2.1倍,解码阶段整网推理时延降低48.7%[20] 推理算法加速 - 提出专家动态剪枝算法PreMoE,实现推理吞吐提升10%+[25] - 提出TrimR反思压缩算法,推理步数降低14%[27] - 提出SpecReason反思投机算法,推理吞吐提升30%[27] 昇腾平台性能表现 - 昇腾800I A2平台在BS=456时单卡吞吐达1148 tokens/s,较72B和32B稠密模型分别提升97%和18%[30] - 结合MTP投机推理技术,单卡BS可提升至146,最高吞吐突破1528 tokens/s[30] - 昇腾300I Duo平台在BS=128时单卡吞吐最高达321 tokens/s,提供更具性价比的MoE推理解决方案[32]