Workflow
CloudMatrix
icon
搜索文档
国泰海通|产业:华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系
华为AI发展战略 - 公司正通过从大模型设计到基础设施的软硬协同,构建全栈AI竞争力,策略从对标业界SOTA模型转向为自研昇腾硬件量身定制模型架构[1] - 双向协同进化路径旨在解决AI模型规模化应用中的系统性问题,构建由软硬件协同架构、算子与软件栈构成的全栈技术体系[1] 盘古大模型技术突破 - 盘古大模型核心为解决大规模分布式系统效率难题,聚焦混合专家(MoE)稀疏架构中的专家负载不均衡问题[1] - 公司创新方向从单纯硬件或算法问题拓展至在自研硬件上高效解决AI系统工程问题[1] 大模型创新路径 - Pangu Pro MoE采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题[2] - Pangu Ultra MoE通过系统级优化和仿真先行设计方法适配昇腾硬件,实现训练与推理的协同优化[2] AI基础设施CloudMatrix - CloudMatrix以统一总线(UB)网络为核心技术,构建统一寻址的分布式高速内存池,降低跨节点通信性能差异[2] - 硬件发展为上层PDC分离架构等软件创新提供物理前提,支持大规模专家并行(LEP)和AIV-Direct等算子级优化[2]
华为盘古大模型与腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 21:52
行业投资评级 - 报告未明确提及行业投资评级 [1] 核心观点 - 华为通过盘古大模型与昇腾AI计算平台构建软硬一体的AI技术体系,从追赶SOTA模型转向为昇腾硬件量身定制模型架构 [2] - 盘古大模型演进的核心是解决大规模分布式系统中的效率难题,特别是混合专家(MoE)架构的负载不均衡问题 [2] - 华为推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径,分别通过架构创新和系统级优化最大化昇腾硬件效率 [2] - CloudMatrix AI基础设施通过统一总线网络等技术创新,为上层软件创新提供物理基础 [4] - 全栈协同是华为AI的核心战略路径,包括模型开放和硬件生态建设 [5] 目录总结 盘古大模型演进 - 盘古大模型从PanGu-α(2000亿参数)起步,基于昇腾910和MindSpore框架 [6] - PanGu-Σ(1.085万亿参数)首次尝试稀疏化架构,采用随机路由专家(RRE)和ECSS异构计算方案 [8][9][11] - 盘古3.0推出"5+N+X"三层架构,面向政务、金融等行业深度优化 [15][16] - 盘古5.5全面拥抱MoE架构,Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数)针对昇腾硬件优化 [20][21] Pangu Pro MoE创新 - 采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题 [26][28] - 在昇腾800I A2硬件上实现Prefill阶段吞吐量比72B稠密模型高203% [40] - 推理阶段达到平均每卡1148 tokens/s,使用多令牌预测后提升至1528 tokens/s [40] Pangu Ultra MoE优化 - 采用仿真先行设计方法,通过系统仿真确定最优模型架构 [48] - 选择Dropless路由和EP-Group辅助损失,优先保障模型性能 [49][51] - 在6000卡昇腾集群上实现30%模型算力利用率(MFU),相对基线提升58.7% [55] CloudMatrix基础设施 - 采用PDC解耦架构,将Prefill、Decode和Caching分离为独立资源池 [66] - 通过统一总线(UB)网络实现跨节点通信延迟仅1.9µs,带宽164GB/s [88] - 昇腾910C NPU采用双Die封装和异构设计,单芯片提供752 TFLOPS BF16算力 [97] - CANN软件栈连接上层框架与底层硬件,支持算子融合等优化 [102]
产业深度:【AI产业深度】华为盘古大模型与昇腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 17:19
【AI 产业深度】华为盘古大模型与异腾 AI 计算平台,共同构建软硬一体 产业研究中心 的 AI 技术体系 摘要: | -- | | | --- | --- | | ડ | 鲍雁辛(分析师) | | ર | 0755-23976830 | | 网 | baoyanxin@gtht.com | | 登记编号 | S0880513070005 | | S | 李嘉琪(分析师) | | ર | 010-83939821 | | D | lijiaqi2@gtht.com | | 登记编号 | S0880524040001 | | ন্ | 刘峰(研究助理) | | క | 0755-23976068 | | E | liufeng6@gtht.com | 决负载不均衡问题。另一方面,Pangu Ultra MoE 则通过系统级优化,以 登记编号 仿真先行的设计方法来优化模型架构从而更好的适配异腾硬件,并通过贯 穿训练和推理的协同优化,以充分发挥硬件潜力。 往期回顾 通往 L3 智能驾驶与具身智能之钥 -- 视觉-语言- 动作模型(VLA)产业研究 2025.08.02 低空经济系列(八):从Joby 和 Arche ...
深度|黄仁勋:人形机器人或成下个万亿产业,华为的技术可能已相当于H200
Z Potentials· 2025-06-14 11:58
中美AI博弈下的战略调整 - 公司第二财季销售额达450亿美元(±2%),中国市场相关收入损失约80亿美元,但通过其他产品和地区需求增长实现弥补[3] - 推理型AI成为最强劲增长引擎,ChatGPT、Gemini、Grok等服务的API调用和Agent系统推动推理负载成为巨大应用场景[3] - Blackwell架构和Fei-Lung 72设计为"思考型机器",配合供应链扩张形成核心推动力[4] - 中国市场占全球AI研究人员50%,战略地位关键但短期受政策限制影响业务[5] - H20芯片已达Hopper架构最低规格限制,中国本土竞争对手如华为技术已接近H200水平[6][7] - 华为CloudMatrix系统可扩展性超过GraceBlackwell架构,中国客户转向本土技术栈[7] 技术竞争与产品策略 - 华为AI加速器性能快速提升,已具备与Nvidia高端GPU竞争实力[7] - 中国数据中心芯片市场存在技术替代风险,美国技术退出将迅速被本土方案填补[6] - 产品设计需在政策限制与市场竞争力之间取得平衡,必须为用户创造实际价值[6] 特朗普政策支持 - 支持关税政策推动美国再工业化和制造业回流,公司正在美国多地建设工厂[11] - 赞同撤销"AI扩散规则"以加速全球对美国技术栈的采纳[11] - 认为移民政策应保持对高技术人才开放,移民群体对美国科技产业贡献重大[12] 人形机器人领域合作 - 与Tesla/xAI在数据中心芯片、Optimus机器人芯片等领域深度合作[13] - Optimus人形机器人接近量产阶段,可能成为下一个万亿美元级产业[13] - Elon Musk在Grok、自动驾驶、机器人等领域的工作具有变革性商业潜力[13] 欧洲市场拓展 - 将访问法国、英国、德国、比利时等多国,会见国家元首推动AI基础设施建设[14] - AI已成为国家关键基础设施,各国正加速建设AI工厂项目[14] - 欧洲市场认识到AI技术对社会高效运行的必要性,合作项目快速推进[14]
昇腾 AI 算力集群有多稳?万卡可用度 98%,秒级恢复故障不用愁
第一财经· 2025-06-10 19:25
AI算力集群高可用性技术 核心观点 - AI算力集群需具备"永不罢工"能力,通过高可用性技术保障24小时稳定运行,成为驱动业务创新的可靠引擎[1] - 华为提出六大创新方案解决AI集群故障率高、恢复慢等问题,包括三大基础能力(故障感知诊断、故障管理、光链路容错)和三大业务支撑能力(集群线性度、训练快恢、推理快恢)[12] 技术方案细节 故障感知与诊断 - 行业现状:万卡级AI集群日均故障≥1次,故障定位耗时数小时至数天[2] - 华为方案: - 构建全栈可观测能力(集群运行视图/告警视图/网络链路监控等)[2] - 开发四大诊断技术(全栈故障模式库/跨域故障诊断/计算节点诊断/网络诊断)[2] - 实现千种故障模式库与分钟级故障诊断[12] 硬件可靠性提升 - 通过可靠性系统工程实现CloudMatrix超节点万卡集群MTBF>24小时[3] - 光链路容错方案: - 首创光链路软件容错技术,容忍度>99%[3] - 新增10倍光模块后闪断率降至电链路水平[3] - HBM多比特ECC故障恢复时间缩短至1min,算力损失下降5%[3] 训练效率优化 - 线性度提升技术: - 采用TACO、NSF、NB、AICT四项关键技术[4] - 实测结果: - 135B稠密模型4K卡线性度96%[6] - 718B稀疏模型8K卡线性度95.05%,4K卡线性度96.48%[6] - 训练快恢系统: - 万卡集群恢复时间<10min[7] - 进程级重调度恢复<3min,在线恢复<30s[9] - 训练回滚时间缩短至单个迭代周期[9] 推理容错方案 - 大EP组网架构下提出三级容错:实例间切换/实例内重启/实例内无损恢复[9] - 关键技术突破: - 实例内重启恢复<5min[10] - TOKEN级重试技术使HBM KV Cache故障恢复<10s,较行业标准提升60倍[10] 技术成效 - 万卡集群可用度达98%[12] - 训推恢复最快达秒级[12] - 集群线性度>95%[12]