Workflow
CloudMatrix
icon
搜索文档
AI Agent时代「顶格配置」:华为云,重塑算力格局
36氪· 2025-09-21 19:10
Lovart Beta版本上线5天内注册用户超过10万人;Genspark只用了9天就突破1000万美元ARR;"初代顶流"Manus更是一再刷新全球关注度纪录…… 2025年,全球AI Agent(智能体)市场再度迎来爆发,AI算力市场随之迎来了一轮新"狂飙"。 一方面,随着全球模型复杂度与大规模实时互动需求齐头并进,中外"AI算力"概念股狂飙。全球AI算力需求不仅没有因为"百模大战"的逐渐熄火而消退,反 而需求日盛。 另一方面,面对全球AI Agent热潮,AI算力的严重不足首当其冲,成本控制与弹性扩容成为企业面临的巨大难题,伴随而来还有配置和管理庞大的AI工具链 极为繁琐,全链条技术底座缺失。 如果说"百模大战"是这场比赛的Level 1,那么在通关以后,一个更难的Level 2摆在了所有人面前。 ——在"Agent为王"时代,如何在高并发、高吞吐的推理与训练场景中,实现算力效率的极致突破? 在华为全联接大会2025上,华为重磅宣布其"明星产品"CloudMatrix的云上超节点规格将从384卡升级到未来的8192卡;同时,会上还宣布CloudMatrix384 AI Token推理服务全面上线,并发布 ...
通信ETF(515880)涨超5.6%,软硬协同技术革新或成行业新动能
每日经济新闻· 2025-08-13 11:17
华为AI战略与技术革新 - 华为通过软硬协同构建全栈AI竞争力,通信设备行业迎来技术革新[1] - AI战略从对标SOTA模型转向为昇腾硬件量身定制架构,推出Pangu Pro MoE和Pangu Ultra MoE两大创新路径[1] - Pangu Pro MoE采用分组专家混合(MoGE)架构,Pangu Ultra MoE通过系统级优化解决负载不均衡问题,提升硬件效率[1] - 新一代AI基础设施CloudMatrix采用统一总线(UB)网络,构建分布式高速内存池,降低跨节点通信差异[1] - 支持PDC分离架构和大规模专家并行(LEP),将软硬协同创新拓展至AI系统工程领域[1] - 大模型从稠密转向MoE稀疏架构,华为聚焦分布式系统效率难题[1] 通信设备行业与相关指数 - 通信ETF(515880)跟踪通信设备指数(931160),聚焦通信设备制造及相关服务领域[1] - 指数成分股涵盖通信网络基础设施、通信终端设备生产及解决方案提供的上市公司证券[1] - 指数具有较高的技术含量和成长性特征[1] - 无股票账户投资者可关注国泰中证全指通信设备ETF联接C(007818)和A(007817)[1]
通信ETF(515880)涨超3.2%,技术迭代与AI应用落地或成行业催化因素
每日经济新闻· 2025-08-13 10:55
华为AI技术发展策略 - 公司通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力 [1] - AI发展策略从对标业界SOTA模型转向为自研昇腾硬件量身定制模型架构 通过双向协同解决AI模型规模化应用中的系统性问题 [1] - 在大模型层面推出两种创新路径:Pangu Pro MoE通过分组专家混合(MoGE)架构解决负载不均衡问题 Pangu Ultra MoE通过系统级优化适配昇腾硬件实现训练和推理协同优化 [1] - 新一代AI基础设施CloudMatrix核心技术是统一总线(UB)网络 通过分布式高速内存池降低跨节点通信性能差异 为上层软件创新提供物理前提 [1] - 随着大语言模型转向混合专家(MoE)稀疏架构 公司将专家负载不均衡作为软硬架构创新核心方向 关注点从单纯硬件或算法问题拓展至在自研硬件上高效解决AI系统工程问题 [1] 通信设备行业指数特征 - 通信ETF(515880)跟踪通信设备指数(931160) 主要覆盖从事通信网络基础设施和通信终端设备等领域上市公司证券 [1] - 指数成分股具有较高技术含量和研发投入特征 行业配置侧重于5G和物联网等相关领域 [1]
20cm速递|创业板人工智能ETF国泰(159388)涨超2.7%,华为全栈AI竞争力获市场关注
每日经济新闻· 2025-08-13 10:55
华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力 策略从对标业界SOTA模型转向为自研昇腾硬件量身定制模型架构 [1] - 在大模型层面推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径 分别通过分组专家混合(MoGE)架构和系统级优化解决负载不均衡问题 [1] - 新一代AI基础设施CloudMatrix通过统一总线(UB)网络构建分布式高速内存池 降低跨节点通信性能差异 [1] - 随着大语言模型转向混合专家(MoE)稀疏架构 公司将解决专家负载不均衡作为软硬架构创新的核心方向 [1] - AI战略核心在于模型的每一次进化都是为了更紧密地与昇腾硬件协同 构建软硬融合技术体系 [1] 创业板人工智能ETF产品特征 - 创业板人工智能ETF国泰(159388)跟踪创业板人工智能指数(970070) 单日涨跌幅可达20% [2] - 指数从创业板市场中选取涉及人工智能技术开发、智能服务等业务的上市公司证券作为样本 [2] - 指数成分股涵盖软硬件研发、智能应用解决方案等多个细分领域 具有显著的科技创新属性 [2]
软件ETF(515230)涨超2.0%,AI技术变革驱动行业估值重塑
每日经济新闻· 2025-08-11 15:08
华为AI战略与技术创新 - 公司正通过从大模型设计到基础设施的软硬协同构建全栈AI竞争力[1] - AI策略从对标业界SOTA模型转向为自研昇腾硬件定制模型架构[1] - Pangu Pro MoE采用分组专家混合(MoGE)架构解决负载不均衡问题[1] - Pangu Ultra MoE通过系统级优化适配昇腾硬件[1] - 新一代AI基础设施CloudMatrix通过统一总线网络构建分布式高速内存池[1] - 降低跨节点通信差异并支持PDC分离架构等软件创新[1] - 大模型转向混合专家(MoE)稀疏架构后聚焦解决专家负载不均衡系统性瓶颈[1] - 软硬协同路径已从单纯硬件或算法问题拓展至AI系统工程领域[1] 软件ETF产品信息 - 软件ETF(515230)跟踪软件指数(H30202)[1] - 指数从市场选取涉及软件开发、系统集成及互联网服务等业务的上市公司证券[1] - 反映软件行业相关上市公司证券的整体表现[1] - 指数成分涵盖应用软件、系统软件等信息技术领域细分行业[1] - 体现软件服务企业的技术创新能力和市场成长性[1] - 无股票账户投资者可关注国泰中证全指软件ETF联接A(012636)和C类(012637)[1]
国泰海通|产业:华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系
华为AI发展战略 - 公司正通过从大模型设计到基础设施的软硬协同,构建全栈AI竞争力,策略从对标业界SOTA模型转向为自研昇腾硬件量身定制模型架构[1] - 双向协同进化路径旨在解决AI模型规模化应用中的系统性问题,构建由软硬件协同架构、算子与软件栈构成的全栈技术体系[1] 盘古大模型技术突破 - 盘古大模型核心为解决大规模分布式系统效率难题,聚焦混合专家(MoE)稀疏架构中的专家负载不均衡问题[1] - 公司创新方向从单纯硬件或算法问题拓展至在自研硬件上高效解决AI系统工程问题[1] 大模型创新路径 - Pangu Pro MoE采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题[2] - Pangu Ultra MoE通过系统级优化和仿真先行设计方法适配昇腾硬件,实现训练与推理的协同优化[2] AI基础设施CloudMatrix - CloudMatrix以统一总线(UB)网络为核心技术,构建统一寻址的分布式高速内存池,降低跨节点通信性能差异[2] - 硬件发展为上层PDC分离架构等软件创新提供物理前提,支持大规模专家并行(LEP)和AIV-Direct等算子级优化[2]
华为盘古大模型与腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 21:52
行业投资评级 - 报告未明确提及行业投资评级 [1] 核心观点 - 华为通过盘古大模型与昇腾AI计算平台构建软硬一体的AI技术体系,从追赶SOTA模型转向为昇腾硬件量身定制模型架构 [2] - 盘古大模型演进的核心是解决大规模分布式系统中的效率难题,特别是混合专家(MoE)架构的负载不均衡问题 [2] - 华为推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径,分别通过架构创新和系统级优化最大化昇腾硬件效率 [2] - CloudMatrix AI基础设施通过统一总线网络等技术创新,为上层软件创新提供物理基础 [4] - 全栈协同是华为AI的核心战略路径,包括模型开放和硬件生态建设 [5] 目录总结 盘古大模型演进 - 盘古大模型从PanGu-α(2000亿参数)起步,基于昇腾910和MindSpore框架 [6] - PanGu-Σ(1.085万亿参数)首次尝试稀疏化架构,采用随机路由专家(RRE)和ECSS异构计算方案 [8][9][11] - 盘古3.0推出"5+N+X"三层架构,面向政务、金融等行业深度优化 [15][16] - 盘古5.5全面拥抱MoE架构,Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数)针对昇腾硬件优化 [20][21] Pangu Pro MoE创新 - 采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题 [26][28] - 在昇腾800I A2硬件上实现Prefill阶段吞吐量比72B稠密模型高203% [40] - 推理阶段达到平均每卡1148 tokens/s,使用多令牌预测后提升至1528 tokens/s [40] Pangu Ultra MoE优化 - 采用仿真先行设计方法,通过系统仿真确定最优模型架构 [48] - 选择Dropless路由和EP-Group辅助损失,优先保障模型性能 [49][51] - 在6000卡昇腾集群上实现30%模型算力利用率(MFU),相对基线提升58.7% [55] CloudMatrix基础设施 - 采用PDC解耦架构,将Prefill、Decode和Caching分离为独立资源池 [66] - 通过统一总线(UB)网络实现跨节点通信延迟仅1.9µs,带宽164GB/s [88] - 昇腾910C NPU采用双Die封装和异构设计,单芯片提供752 TFLOPS BF16算力 [97] - CANN软件栈连接上层框架与底层硬件,支持算子融合等优化 [102]
产业深度:【AI产业深度】华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 17:19
行业投资评级 - 报告未明确提及行业投资评级 [1][2][3][4][5][6] 核心观点 - 华为盘古大模型从追赶SOTA模型转向为自研异腾硬件量身定制模型架构,构建软硬一体AI技术体系 [4][12] - 盘古大模型演进路径:PanGu-α(2000亿参数)→ PanGu-Σ(1.085万亿参数稀疏架构)→ 盘古3.0("5+N+X"行业架构)→ 盘古5.5(全面拥抱MoE架构) [12][15][17][21][27][30] - Pangu Pro MoE采用分组专家混合(MoGE)架构解决负载不均衡问题,实现理论负载均衡 [37][38][45][46] - Pangu Ultra MoE通过仿真先行设计方法优化模型架构,在6000卡异腾集群上实现30%模型算力利用率(MFU) [64][68][71][82] - CloudMatrix基础设施通过统一总线(UB)网络和三平面架构支撑大规模AI推理,DeepSeek-R1模型推理效率达1.29 tokens/s/TFLOPS [88][93][97][102][113] 盘古大模型演进 - PanGu-α(2021年):基于2048颗异腾910和MindSpore框架训练,采用五维并行策略,验证全栈自主技术路线可行性 [12][13] - PanGu-Σ(2023年):1.085万亿参数稀疏模型,采用随机路由专家(RRE)和专家计算存储分离(ECSS)技术,训练吞吐量提升6.3倍 [15][17][18] - 盘古3.0(2023年):提出"5+N+X"三层架构,覆盖气象、药物分子等行业应用,千卡训练长稳率达90% [21][22][23][24] - 盘古5.5(2025年):推出Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数),全面优化MoE架构适配异腾硬件 [30][31][32] Pangu Pro MoE技术亮点 - MoGE架构将64专家分为8组,每组绑定1个NPU,强制每组激活1专家,实现理论负载均衡(IS=0) [45][46][54] - 训练阶段采用EP=2和PP=5流水线优化,MFU提升35%;推理阶段实现每卡1148 tokens/s吞吐量 [52][56][57] - 为异腾硬件定制MulAttention和SwiftGMM融合算子,注意力计算性能提升4.5倍 [59][61] Pangu Ultra MoE系统优化 - 通过仿真平台从10,000个候选配置中选出最优架构(61层/7680隐层/256专家),仿真与真实训练吻合度达90.1% [64][68][71] - 采用Dropless路由和EP-Group辅助损失,避免8% token丢弃率对模型性能的影响 [72][76] - 分层专家并行通信和自适应流水线重叠技术实现95%通信重叠率,训练效率提升58.7% [77][78][81][82] CloudMatrix基础设施 - UB网络实现NPU间164GB/s带宽和1.9μs延迟,跨节点性能衰减低于3% [102][121][122] - PDC解耦架构将Prefill、Decode与Caching分离为独立资源池,支持弹性伸缩 [97][98][101] - AIV-Direct通信机制绕过SDMA引擎,使通信延迟降低至微观指令级别 [108][109][132] - 异腾910C NPU采用AI Cube和AI Vector异构设计,支撑算子级深度融合 [132]
深度|黄仁勋:人形机器人或成下个万亿产业,华为的技术可能已相当于H200
Z Potentials· 2025-06-14 11:58
中美AI博弈下的战略调整 - 公司第二财季销售额达450亿美元(±2%),中国市场相关收入损失约80亿美元,但通过其他产品和地区需求增长实现弥补[3] - 推理型AI成为最强劲增长引擎,ChatGPT、Gemini、Grok等服务的API调用和Agent系统推动推理负载成为巨大应用场景[3] - Blackwell架构和Fei-Lung 72设计为"思考型机器",配合供应链扩张形成核心推动力[4] - 中国市场占全球AI研究人员50%,战略地位关键但短期受政策限制影响业务[5] - H20芯片已达Hopper架构最低规格限制,中国本土竞争对手如华为技术已接近H200水平[6][7] - 华为CloudMatrix系统可扩展性超过GraceBlackwell架构,中国客户转向本土技术栈[7] 技术竞争与产品策略 - 华为AI加速器性能快速提升,已具备与Nvidia高端GPU竞争实力[7] - 中国数据中心芯片市场存在技术替代风险,美国技术退出将迅速被本土方案填补[6] - 产品设计需在政策限制与市场竞争力之间取得平衡,必须为用户创造实际价值[6] 特朗普政策支持 - 支持关税政策推动美国再工业化和制造业回流,公司正在美国多地建设工厂[11] - 赞同撤销"AI扩散规则"以加速全球对美国技术栈的采纳[11] - 认为移民政策应保持对高技术人才开放,移民群体对美国科技产业贡献重大[12] 人形机器人领域合作 - 与Tesla/xAI在数据中心芯片、Optimus机器人芯片等领域深度合作[13] - Optimus人形机器人接近量产阶段,可能成为下一个万亿美元级产业[13] - Elon Musk在Grok、自动驾驶、机器人等领域的工作具有变革性商业潜力[13] 欧洲市场拓展 - 将访问法国、英国、德国、比利时等多国,会见国家元首推动AI基础设施建设[14] - AI已成为国家关键基础设施,各国正加速建设AI工厂项目[14] - 欧洲市场认识到AI技术对社会高效运行的必要性,合作项目快速推进[14]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]