超节点
搜索文档
国产 ASIC:PD 分离和超节点:ASIC 系列研究之四
申万宏源证券· 2025-09-26 21:28
投资评级 - 报告对国产ASIC行业持积极看法,认为ASIC设计服务商迎来发展机遇,博通、Marvell、国内芯原股份、翱捷科技、灿芯股份有望受益 [2] 核心观点 - ASIC在能效与成本上优势突出,专用芯片特性使其在推理场景更具优势,AI渗透率提升带动推理需求激增,拓宽ASIC市场空间 [1][3] - ASIC设计复杂度高,专业分工下设计服务商价值凸显,博通等头部服务商凭借完整IP体系、封装技术和量产经验巩固行业地位 [1][3] - 国内云厂商自研ASIC已有独立成果,并非跟随海外路径,百度、阿里、字节等头部厂商推动国产ASIC放量,本土设计服务商迎来战略机遇 [1][3] - PD分离与超节点成为国产ASIC发展的两大核心趋势,华为、海光等厂商已形成自主技术体系,采用开源开放模式适配多元化需求 [1][4] 目录总结 大模型推理带动ASIC需求 - 2028-2030年全球AI芯片市场规模有望达5000亿美元,AI基础设施支出预计达3-4万亿美元 [8] - ASIC专用性强,谷歌TPU v5能效比为英伟达H200的1.46倍,亚马逊Trainium2训练成本较GPU降低40%,推理成本降55% [14][15] - 推理需求激增驱动ASIC需求,ChatGPT C端WAU达7亿,OpenRouter统计Token消耗量一年翻近10倍 [21][29] - 博通2024年AI ASIC收入122亿美元,2025年前三季度达137亿美元,AMD预计2028年全球AI ASIC市场规模达1250亿美元 [1][30] ASIC设计复杂度高,服务商价值凸显 - ASIC设计需前端需求定义与后端技术落地,云厂商多依赖服务商,博通、Marvell为全球主要服务商 [36][41] - 谷歌TPU成功离不开与博通合作,博通优势包括30亿美元投入积累的完整IP体系、TPU设计经验、3.5D XDSiP封装技术、高速互联与CPO技术 [1][55] - 博通2024年AI ASIC收入122亿美元,2025年前三季度达137亿美元,季度环比增速超越英伟达 [1][55] 国内ASIC发展并非跟随 - 2025H1中国AI云市场CR5超75%,头部云厂需求旺盛,百度昆仑芯迭代至第三代,实现万卡集群部署并中标10亿元中国移动订单 [1][74][75] - 阿里平头哥PPU显存容量96GB、带宽700GB/s超英伟达A800,签约中国联通16384张算力卡订单 [76][78] - 字节2020年启动芯片自研,计划2026年前量产,国产服务商芯原股份、翱捷科技、灿芯股份各具优势 [1][80][82] 国产ASIC技术趋势:PD分离与超节点 - PD分离指Prefill与Decode任务用不同芯片完成,华为昇腾950分PR和DT型号适配不同场景 [1][94][95] - 超节点通过高带宽互联形成统一计算体,海光开放HSL协议吸引寒武纪等参与,华为开放灵衢总线支持超8192卡扩展 [1][104][107] - 英伟达Rubin CPX为海外首个芯片级PD分离实践,采用GDDR7替代HBM降低成本,华为昇腾950PR/950DT分别针对Prefill和Decode优化 [90][92][95]
ASIC系列研究之四:国产ASIC:PD分离和超节点
申万宏源证券· 2025-09-26 20:46
报告行业投资评级 - 看好 [2] 报告核心观点 - ASIC专用芯片在AI大模型推理阶段具备显著成本效益优势,能效比和单位算力成本表现突出,验证了其商业化拐点 [3] - AI渗透率提升推动推理需求激增,Token消耗量近一年翻近10倍,驱动ASIC市场空间扩大,预计2028年全球AI ASIC市场规模达1250亿美元 [3][31][32] - ASIC设计服务商在产业链中价值凸显,博通等头部服务商凭借完整IP体系、先进封装技术和量产经验获得持续订单,国内厂商如芯原股份、翱捷科技、灿芯股份迎来发展机遇 [3][60][89][90] - 国产ASIC发展呈现PD分离和超节点两大趋势,华为昇腾950分型号适配不同场景,海光、华为构建开放互联生态,区别于海外封闭路径 [3][99][107][115] 大模型推理带动ASIC需求 - ASIC与GPU技术边界趋同,但商业模式差异显著:ASIC为下游场景高度耦合的专用芯片,GPU需覆盖多场景属通用芯片 [3][14][15] - ASIC能效比优势突出,谷歌TPU v5能效比为英伟达H200的1.46倍,亚马逊Trainium2训练成本较GPU方案降低40%,推理成本降55% [3][18] - 自研ASIC可显著降低TCO,外采芯片需承担厂商利润,英伟达FY2025净利率达57%,其数据中心AI芯片收入1022亿美元 [3][21] - 推理需求激增驱动ASIC放量,ChatGPT C端WAU达7亿,OpenRouter统计Token消耗量从2024年9月不足0.5T提升至2025年8月接近5T [3][25][31] ASIC设计复杂度高,服务商价值凸显 - 谷歌TPU成功离不开与博通合作,博通核心优势包括30亿美元投入积累的完整IP体系、TPU设计经验、3.5D XDSiP封装技术及高速互联能力 [3][59][60][69] - 博通2024年AI ASIC收入122亿美元,2025年前三季度达137亿美元,季度环比增速超越英伟达 [3][60] - 芯片设计连贯性带来高客户转换成本,服务商壁垒稳固,头部云厂如谷歌、亚马逊、Meta、微软均依赖博通、Marvell等专业服务商 [3][44][60][75] - 国内设计服务商各具优势:芯原股份具备5nm工艺能力和丰富IP积累,翱捷科技在手订单充足,灿芯股份依托中芯国际布局成熟制程 [3][89][90][91] 国内ASIC发展机遇 - 2025H1中国AI云市场CR5超75%,头部云厂自研ASIC成果显著:百度昆仑芯实现万卡集群部署并中标10亿元中国移动订单,阿里平头哥PPU显存带宽超英伟达A800并签约16384张算力卡订单,字节计划2026年前量产自研芯片 [3][78][83][84][87] - 国产ASIC服务商覆盖不同技术需求,芯原股份2024年芯片量产收入8.6亿元、芯片设计7.2亿元、IP授权7.4亿元,灿芯股份芯片量产收入8.1亿元 [3][91] - SerDes等关键IP国产化加速,国内厂商如芯潮流、晟联科、集益威已布局56Gbps-112Gbps产品,但224Gbps仍依赖海外 [3][95] 国产ASIC技术趋势:PD分离与超节点 - PD分离成为推理场景主流趋势,Prefill任务计算密集型,Decode任务内存带宽受限,华为昇腾950分PR和DT型号适配不同场景 [3][97][99][107] - 英伟达Rubin CPX专为Prefill优化,采用GDDR7替代HBM降低成本,预计2026年底上市 [3][99][103] - 超节点通过高带宽互联整合多处理器,国内海光开放HSL协议吸引寒武纪等参与,华为开放灵衢总线支持超8192卡扩展,均采用开源开放模式 [3][109][115][117] - 华为昇腾950PR采用自研低成本HiBL 1.0 HBM,950DT采用HiZQ 2.0 HBM,内存带宽达4TB/s,互联带宽2TB/s [3][107]
阿里云栖大会第一日——超节点
小熊跑的快· 2025-09-24 12:38
阿里云超节点架构 - 大模型训练推理对显存容量和带宽需求增长 传统GPU单机8卡方案无法满足业务需求[4] - 超节点解决方案采用多卡组成 具备大容量显存和低延迟共享特性[4] - 超节点设计基于高密度集成的PPU芯片 充分发挥芯片设计优越性[6] UALink互联协议 - 超节点采用UALink协议 联盟成员包括AMD AWS Google Intel Meta Microsoft等[5] - AMD贡献Infinity Fabric协议促成联盟成立 阿里云加入该联盟[5] - 协议针对行业自有技术演进成本高问题 提供开放互联方案[5] 硬件性能参数 - PPU配备96GB HBM2e显存 高于A800的80GB 与H20容量一致[10] - 片间互联带宽达700GB/s 远超A800的400GB/s 略低于H20[10] - 支持PCIe 5.0×15接口 优于A800的PCIe 4.0×16 与H20同代[10] - 功耗400W与A800相同 低于H20的550W[10] - 基础版峰值算力120TFLOPS专注AI推理 高级版支持AI训练[10] 网络与拓扑架构 - ALS-D系统在UALink上补充在网计算加速特性 支持Switch组网模式[9] - 采用基于Switch硬件连接方案 支持单层和二层互连拓扑[9] - 可扩展至数百/数千节点互连 满足并行计算发展需求[9] 系统集成方案 - 超节点实现单机64卡配置 磐久机柜功率达300千瓦[9] - 采用铜线链接方案提升密度 对互联协议有特定要求[9] - 通过MoE技术提升模型表达能力 降低算力需求[8]
英伟达50亿美元“雪中送炭”,英特尔绝地求生?全球格局一夜生变,国产芯片如何突围
华夏时报· 2025-09-20 22:43
合作核心内容 - 英伟达以50亿美元注资入股英特尔 双方将共同开发多代定制化的数据中心及个人计算产品 [1] - 通过NVIDIA NVLink技术实现架构无缝互连 融合英伟达AI与加速计算优势及英特尔CPU技术与x86生态 [2] - 英特尔为英伟达定制x86处理器并集成至英伟达AI基础设施平台 同时推出集成NVIDIA RTX GPU芯粒的x86系统级芯片用于PC产品 [2] 合作背景与战略动机 - 20年前英特尔曾拒绝以200亿美元收购英伟达的提议 如今行业地位发生反转 [3] - 英特尔2025年第二季度财报显示营收129亿美元同比持平 净亏损29亿美元 需通过合作重获资本市场信心 [8] - 英伟达通过投资可弥补CPU短板 借助英特尔渠道拓展企业级和个人市场 同时防御微软、亚马逊、谷歌等云巨头自研芯片的威胁 [4] - 合作可应对AMD的CPU-GPU一体化平台竞争 通过"Intel CPU+Nvidia GPU"硬件架构提升AI计算平台性能 [4] 资本市场反应与政府参与 - 消息公布后英特尔股价一度涨近30% 收盘涨22.77%至30.57美元/股 总市值达1428亿美元 [6] - 英伟达股价涨3.49%至176.24美元/股 总市值达4.28万亿美元 [6] - 英特尔过去一个月获三笔投资:软银20亿美元(每股23美元) 美国政府89亿美元(每股20.47美元收购4.333亿股占9.9%) 英伟达50亿美元(每股23.28美元) [6] - 美国政府投资来自《芯片与科学法案》57亿美元补贴及32亿美元政府资助 成为被动持股大股东 [7] 对竞争对手的影响 - AMD股价收盘跌0.78%至157.92美元/股 总市值2563亿美元 ARM股价收盘跌4.45% [9] - 合作直接挑战AMD的CPU-GPU一体化平台 可能使AMD在未来被边缘化 [10] - 对ARM架构构成打击 英伟达在通算路线选择x86将削弱ARM在数据中心和超大规模应用中的替代价值 [9][10] 对中国半导体行业的影响 - 合作巩固美国在高端算力和数据中心芯片的垄断地位 加大中国厂商国际竞争难度 [11] - 促使中国加速自主创新 超节点路径成为破局关键 国产替代速度将加快 [11] - 华为发布Atlas 950/960 SuperPoD超节点 支持8192及15488张昇腾卡 算力集群规模达50万卡和百万卡 [12] - 壁仞科技、曦智科技、中兴通讯联合推出光跃LightSphere X超节点解决方案 计划实现数千卡规模商业化部署 [12] - 国产厂商通过分布式架构和互连创新构建不依赖CUDA的自主系统 但在训练市场仍难以突破英伟达生态护城河 [13]
「寻芯记」英伟达50亿美元“雪中送炭”,英特尔绝地求生?全球芯片格局一夜生变
华夏时报· 2025-09-19 21:03
合作核心内容 - 英伟达以50亿美元注资入股英特尔 双方将共同开发多代定制化的数据中心及个人计算产品[2] - 通过NVIDIA NVLink技术实现架构无缝互连 融合英伟达AI与加速计算优势及英特尔CPU技术与x86生态[3] - 英特尔为英伟达定制x86处理器并集成至AI基础设施平台 同时推出集成NVIDIA RTX GPU芯粒的x86系统级芯片[4] 合作背景与动因 - 英特尔获得英伟达资金和市场背书 股价应声上涨22.77%至30.57美元/股[5][6] - 英伟达通过投资补齐CPU短板 深化GPU与英特尔CPU整合 并借助英特尔渠道拓展市场[5] - 应对AMD的CPU-GPU一体化平台威胁 以及微软、亚马逊、谷歌等云巨头自研芯片的竞争压力[5] 英特尔近期资本动态 - 过去一个月获得三笔投资:软银集团20亿美元(每股23美元)、美国政府89亿美元(每股20.47美元收购4.333亿股)、英伟达50亿美元(每股23.28美元)[7] - 美国政府投资属于被动持股 不享有董事会席位及治理权 资金来自《芯片与科学法案》的57亿美元补贴和32亿美元政府资助[8] - 英特尔2025年第二季度营收129亿美元(同比持平) 净亏损29亿美元[8] 行业竞争格局影响 - AMD股价下跌0.78%至157.92美元/股 ARM股价下跌4.45%[9] - 合作对AMD的CPU-GPU一体化平台构成挑战 对ARM架构在智算芯片领域形成冲击[9][10] - 台积电股价未受显著影响 收盘上涨2.23%至268.64美元/股[9] 技术发展路径 - 摩尔定律趋近极限 行业转向通过工程技术提升计算架构整体效能[6] - 英伟达基于NVLink技术实现通算和智算在融合计算架构上的结合[6] - 超节点技术成为重要发展方向 通过系统级架构创新将大量计算芯片紧密耦合[11] 中国市场影响与应对 - 合作进一步巩固美国在高端算力和数据中心芯片的垄断地位[11] - 中国厂商加速自主研发 华为发布Atlas 950/960 SuperPoD超节点 支持8192及15488张昇腾卡[11] - 壁仞科技、曦智科技、中兴通讯联合推出光跃LightSphere X 计划实现数千卡规模商业化部署[12] - 国产芯片企业通过分布式架构和互连创新构建自主系统 聚焦推理市场与英伟达竞争[13]
科技风起:从昇腾迭代路线图看国产算力发展趋势
长江证券· 2025-09-19 10:42
报告行业投资评级 - 报告未明确给出具体的行业投资评级 [1][2][4][5][6][7][8][9][11][15][16][17][18][19][20][21][22][23][24] 报告核心观点 - 华为在2025年9月18日全联接大会上公布AI芯片、超节点和算力集群路线图 预计2026年第一季度推出昇腾950PR芯片 2026年第四季度推出昇腾950DT芯片 2027年第四季度推出昇腾960芯片 2028年第四季度推出昇腾970芯片 [8][11] - 华为发布最新超节点产品Atlas 950 SuperPoD和Atlas 960 SuperPoD 分别支持8192张和15488张昇腾卡 [11] - 华为发布超节点集群Atlas 950 SuperCluster和Atlas 960 SuperCluster 算力规模分别超过50万卡和达到百万卡 [11] - 超节点正成为AI基础设施建设新常态 通过"超节点+集群"解决方案满足算力需求 [5][11] - 超节点带来互联需求提升、液冷价值量提升、系统解决方案升级和国产先进制程产能需求提升等产业影响 [5][11] 算力芯片迭代升级 - 华为昇腾AI芯片在算力性能、精度支持、向量算力、可编程性、内存容量、内存带宽、互联带宽、PD分离、自研HBM等方向均显著提升 [11] - 芯片生态进一步开放 追赶海外龙头厂商 [11] 超节点发展态势 - 超节点AI服务器算力密度和通信复杂度大幅提升 单节点功耗显著增加 [11] - 华为通过灵衢、UnifiedBus等互联协议消除关键瓶颈 更好支持大模型训练和推理 [11] - 国内半导体产业链加速推进国产技术迭代 先进制程工艺水平和产能规模持续提升 [11] 产业链投资机会 - 国产AI芯片领军企业寒武纪和国产高端CPU、DCU领军企业 [11] - 超节点服务器厂商如烽火通信和神州数码 [11] - 超节点配套链接厂商华丰科技、液冷厂商英维克和PCB厂商 [11] - 华为超节点相关合作伙伴 [11] - 半导体先进制造产业链如晶圆、封测、设备材料等供应商 [11]
2025华为全联接大会解读:昇腾铸芯、超节点织网,华为算力跃升新纪元
东北证券· 2025-09-19 10:41
行业投资评级 - 电子行业评级为"优于大势" [6] 核心观点 - 华为通过昇腾芯片与超节点产品实现系统级创新 在AI算力基础设施领域实现全面突破 为国产算力提供持续替代方案 [1][3] - 昇腾芯片保持"一年一代"迭代节奏 2025-2028年将陆续推出910C/950PR/950DT/960/970系列 算力与带宽性能持续提升 [1][14] - 超节点产品通过灵衢协议和UB-Mesh架构实现高可靠全光互联 覆盖从数据中心到企业级的多样化算力需求 [1][2][24] - 华为在HBM存储器、芯片架构设计和工艺技术方面实现自研突破 逐步补齐与行业龙头的性能差距 [3][15][21] 昇腾芯片产品线 - 昇腾910C已于2025Q1发布 提供800 TFLOPS@FP16算力和3.2TB/s内存带宽 [14][20] - 昇腾950系列将于2026年推出:950PR专注推理和推荐场景 配备1.6TB/s带宽HBM;950DT专注训练和解码场景 配备4TB/s带宽HBM [1][15][16] - 昇腾960计划2027Q4发布 算力、内存容量、内存带宽和互联端口均实现翻倍 达2 PFLOPS@FP8和9.6TB/s带宽 [18][20] - 昇腾970计划2028Q4发布 FP8算力进一步提升至4 PFLOPS 内存带宽达14.4TB/s [19][20] 超节点数据中心产品 - Atlas 900 A3 SuperPoD支持384卡互联 总算力300 PFLOPS 已部署超300套 [27] - Atlas 950 SuperPoD支持8192卡无收敛互联 算力达8 EFLOPS@FP8 互联带宽16.3 PB/s 性能达英伟达NVL144的6.7倍 [30][33] - Atlas 960 SuperPoD计划2027H2发布 支持15488卡互联 算力提升至30 EFLOPS@FP8 互联带宽34 PB/s [33] 超节点集群与企业级产品 - Atlas 950 SuperCluster由64个SuperPoD组成 总算力达524 EFLOPS@FP8(1 ZFLOPS@FP4) 网络时延降低23% 光模块数量减少26% [37] - 企业级风冷服务器Atlas 850支持8颗NPU 算力8 PFLOPS@FP8 后训练吞吐提升3倍 推理时延降至10毫秒 [38][39] - Atlas 860计划2027Q4发布 FP8算力翻倍至16 PFLOPS 显存容量提升至2304GB [39][40] 标卡与鲲鹏产品 - Atlas 350标卡支持850 TFLOPS@FP16算力 128GB HBM3E内存 专为高并发推理和多模态生成任务优化 [41][42] - 鲲鹏950芯片计划2026Q4发布 支持96C/192T规格 TaiShan 950 SuperPoD数据库处理能力提升2.9倍至5.4mn tpmC [44][45] 产业链与合作伙伴 - 昇腾上游产业链涵盖晶圆代工、铜连接(华丰科技)、光连接(华工科技)、电源(泰嘉股份)、PCB(深南电路等)及散热(飞荣达等)领域 [4][46] - 硬件合作伙伴包括科思科技(688788)、华大智造(688114)、广电五舟(831619)、软通动力(301236)等20余家企业 [47][49] - 大模型应用一体机合作伙伴包括蓝凌软件(834906)、恒生电子(600570)、金山办公(688111)、科大讯飞(002230)等30余家企业 [50]
从超节点到集群,华为亮出AI算力全家桶
21世纪经济报道· 2025-09-18 21:17
华为AI算力战略发布 - 公司在全联接大会上公布AI算力全景图 包括4颗昇腾芯片 3个超节点 2款鲲鹏CPU和灵衢互联架构 全面对标英伟达 [1] - 公司强调基于中国可获得的芯片制造工艺打造超节点+集群算力解决方案 以满足持续增长的算力需求 [1][8] - 这是时隔6年后再次集中展示芯片进展 明年大会可能更名为华为计算联接大会 体现对AI算力的重视 [1] 昇腾芯片技术路线 - 昇腾芯片未来三年迭代路线明确:2026年Q1推出Ascend 950系列 2027年Ascend 960 2028年Ascend 970 实现一年一代算力翻倍 [3] - Ascend 950PR面向推理Prefill阶段和推荐场景 新增支持FP8/MXFP578/MXFP4低精度数据格式提升训练效率 [3] - Ascend 950DT更注重推理Decode阶段和训练场景 与950PR形成互补 [3] - 昇腾芯片从2019年昇腾910上市至今已从加速卡演进为完整AI软硬件体系 [4][5] 鲲鹏CPU发展规划 - 鲲鹏950预计2026年Q4推出 鲲鹏960预计2028年Q1推出 [5] - 鲲鹏直接对标英特尔和AMD产品 在超节点中与昇腾芯片形成合力 [5] - 公司围绕鲲鹏和昇腾构建新计算生态 为核心AI算力旗舰产品 [5] 超节点技术突破 - 发布Atlas 950 SuperPoD支持8192张昇腾卡 Atlas 960 SuperPoD支持15488张昇腾卡 在卡规模/总算力/内存容量/互联带宽等关键指标全面领先 [6] - 基于超节点发布全球最强集群Atlas 950 SuperCluster算力超50万卡 Atlas 960 SuperCluster算力达百万卡 [6] - CloudMatrix 384超节点累计部署300多套服务20多家客户 Atlas 950 SuperPoD预计今年Q4上市 Atlas 960 SuperPoD预计2027年Q4上市 [6] 通用计算与互联技术 - 率先将超节点技术引入通用计算领域 发布全球首个通用计算超节点TaiShan 950 SuperPoD 结合GaussDB可取代大型机/小型机及Exadata数据库一体机 [7] - 突破大规模超节点互联技术挑战 开创灵衢(UnifiedBus)互联协议 将开放灵衢2.0技术规范共建开放生态 [7] - 灵衢UB是目前唯二商用的高速互联总线超节点架构产品 可与英伟达NVLink直接竞争 [7] 算力发展战略 - 公司通过架构性创新开创自主可持续计算产业发展道路 强调系统算力而非单处理器算力 [8] - 在系统工程层面通过超节点系统有效调度 昇�系统能效可比肩英伟达 [9] - 中国AI市场多厂商竞争格局形成 包括华为昇腾/阿里平头哥/百度昆仑/寒武纪等均在追赶英伟达 [5]
华为披露芯片路线图,详情披露
半导体芯闻· 2025-09-18 18:40
华为昇腾芯片技术演进 - 昇腾芯片持续演进 为中国及全球AI算力提供基础 未来3年规划三个系列芯片 包括Ascend 950/960/970系列 [2][3] - Ascend 950系列即将推出 包含两颗芯片:950PR面向推理Prefill和推荐场景 950DT面向推理Decode和训练场景 [3][4] - 相比前代Ascend 910C Ascend 950实现根本性提升:新增支持FP8/MXFP8/MXFP4等低精度格式 FP8算力达1 PFLOPS FP4算力达2 PFLOPS 互联带宽提升2.5倍至2TB/s [3][4][5] - 采用自研HBM技术:950PR采用HiBL 1.0 HBM 降低成本 950DT采用HiZQ 2.0 HBM 内存容量达144GB 带宽达4TB/s [4][5] - Ascend 960规划于2027Q4推出 各项规格相比950翻倍 FP8算力达2 PFLOPS FP4算力达4 PFLOPS 支持HiF4格式 [6][7] - Ascend 970规划于2028Q4推出 相比960 FP8算力翻倍至4 PFLOPS FP4算力翻倍至8 PFLOPS 互联带宽翻倍至4TB/s 内存带宽提升1.5倍 [7] 超节点产品布局 - Atlas 900超节点已部署300多套 满配384颗Ascend 910C芯片 算力达300 PFLOPS 服务20多个客户 [8] - 新发布Atlas 950超节点 基于Ascend 950DT 支持8192张卡 是Atlas 900规模的20多倍 FP8算力达8 EFLOPS FP4算力达16 EFLOPS 互联带宽达16PB/s 超全球互联网峰值带宽10倍 2026Q4上市 [9][10] - 相比英伟达NVL144 Atlas 950卡规模是其56.8倍 总算力是其6.7倍 内存容量达1152TB是其15倍 互联带宽达16.3PB/s是其62倍 [10] - Atlas 950超节点训练性能提升17倍达4.91M TPS 推理性能提升26.5倍达19.6M TPS [10][11] - Atlas 960超节点规划于2027Q4 基于Ascend 960 支持15488卡 FP8总算力达30 EFLOPS FP4总算力达60 EFLOPS 内存容量达4460TB 互联带宽达34PB/s 训练和推理性能相比950提升3倍和4倍以上 [11] 集群解决方案 - Atlas 950 SuperCluster集群由64个Atlas 950超节点组成 集成52万多片昇腾950DT卡 FP8总算力达524 EFLOPS 2026Q4上市 [19] - 相比xAI Colossus集群 华为集群规模是其2.5倍 算力是其1.3倍 [20] - Atlas 960 SuperCluster规划于2027Q4 规模达百万卡级 FP8总算力达2 ZFLOPS FP4总算力达4 ZFLOPS [20] - 集群支持UBoE和RoCE协议 UBoE相比RoCE静态时延更低 可靠性更高 节省交换机和光模块数量 [20] 通用计算超节点 - 鲲鹏处理器围绕超节点方向演进 2026Q1推出Kunpeng 950处理器 两个版本:96核/192线程和192核/384线程 支持通用计算超节点 新增四层隔离安全特性 [12] - 发布TaiShan 950通用计算超节点 基于Kunpeng 950 最大支持16节点32个处理器 内存48TB 支持内存/SSD/DPU池化 2026Q1上市 [14] - TaiShan 950助力金融系统替代大型机/小型机 结合GaussDB多写架构无需分布式改造 性能提升2.9倍 [14][15] - 在虚拟化环境内存利用率提升20% Spark大数据场景实时处理时间缩短30% [15] - 支持构建混合超节点 结合TaiShan 950和Atlas 950 为生成式推荐系统提供PB级共享内存池和超低时延推理能力 [15] 互联技术创新 - 华为开创超节点互联协议"灵衢"(UB) 灵衢1.0已用于Atlas 900超节点 灵衢2.0用于Atlas 950超节点 将开放给产业界共建生态 [17][18][19] - 解决长距离高可靠互联问题 光互联可靠性提升100倍 距离超200米 [16][17] - 解决大带宽低时延问题 实现TB级带宽和2.1微秒时延 [16][17] - 万卡超节点架构具备六大特征:总线级互联、平等协同、全量池化、协议归一、大规模组网、高可用性 [17]
华为AI芯片计划全盘托出!全球最强超节点+超级集群,未来2年全面领先
量子位· 2025-09-18 18:33
文章核心观点 - 华为通过系统架构和互联技术创新 在AI算力集群层面实现全面超越 预计未来两年保持全球算力领先地位[3][5][30] - 公司公布昇腾系列芯片详细演进路线 坚持"一年一代 算力翻倍"技术迭代节奏[7][8][21] - 推出全球首个通用计算超节点 重塑AI和通用计算基础设施范式[45][48][49] 芯片产品规划 昇腾950系列 - 昇腾950PR:面向推荐和推理场景 采用自研HBM内存方案降低成本 2026年第一季度上市[10][11][12][14] - 昇腾950DT:面向训练场景 互联带宽提升2.5倍 支持自研HBM 2026年第四季度上市[16][17][18][19] - 昇腾960:旗舰训练芯片 规格较950实现翻倍提升 2027年第四季度上市[21][22] - 昇腾970:训练芯片全面升级 FP4/FP8算力翻倍 内存带宽提升1.5倍 2028年第四季度上市[24][25][26] 鲲鹏系列 - 鲲鹏950处理器:支持96核/192线程和192核/384线程两种版本 新增四层安全隔离 2026年第一季度上市[46][52] 超节点系统 Atlas 950超节点 - 支持8,192张昇腾950DT芯片 规模为Atlas 900的20多倍[32] - 关键指标:FP8算力8 EFlops FP4算力16 EFlops 互联带宽16.3 PB/s(超全球互联网总带宽10倍) 内存容量1152 TB[35] - 较英伟达NVL144卡规模达56.8倍 总算力6.7倍 内存容量15倍 互联带宽72倍[37] - 2026年第四季度上市 预计未来两年保持全球算力第一[38] Atlas 960超节点 - 支持15,488张昇腾960/950DT芯片 采用跨柜全光互联[40] - 关键指标全面翻倍:FP8算力30 EFlops FP4算力60 EFlops 内存容量4460 TB 互联带宽34 PB/s[43] - 训练总吞吐4.91百万TPS(较Atlas 900提升17倍) 推理总吞吐19.6百万TPS(提升26.5倍)[42] - 2027年第四季度上市[41] 集群系统 Atlas 950 SuperPlus集群 - 由64个Atlas 950超节点并联 整合52万颗昇腾950T芯片[57] - 总算力达524 EFlops 支持UBOE和RoCE两种组网协议[58] - 2026年第四季度上市[59] Atlas 960 SuperPlus集群 - 规模达百万卡级 FP8总算力2 ZFlops FP4达4 ZFlops[62] - 2027年第四季度上市[62] 通用计算超节点 - 泰山950超节点:全球首个通用计算超节点 最大支持16节点32处理器 内存48TB[48][49] - GaussDB读写架构性能提升2.9倍 可平滑替代大型机小型机传统数据库[50] - 虚拟化环境内存利用率提升20% Spark大数据实时处理时间缩短30%[50] - 2026年第一季度上市[51] 技术创新 - 开创灵衢互联协议 解决万卡超节点长距离高可靠互联难题[54] - 自研HBM方案HiZQ 2.0:内存容量144GB 访问带宽4TB/s 互联带宽2TB/s[27] - 支持Hi-F4数据格式 业界最优4bit精度实现 推理精度优于FP4方案[28]