灵衢协议
搜索文档
超节点与Scale up网络行业报告:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
搜狐财经· 2026-03-06 09:55
文章核心观点 超节点与Scale-up网络是支撑万亿级大模型与高实时性应用的关键基础设施,正处于快速发展期,并将成为算力芯片、网络部件、存储部件、供电散热等新兴技术的重要应用市场[2]。英伟达、谷歌、AMD和华为四家头部AI算力芯片厂商在该领域各有布局,行业格局正从英伟达一家独大向多元化竞争演变[2]。 根据相关目录分别进行总结 1. 超节点与Scale-up网络概述 - 大语言模型参数规模向万亿级演进,驱动对高带宽、低延迟网络的需求,构建Scale-up网络(纵向扩张网络)成为主流技术路径[23] - Scale-up网络旨在在一定成本和技术约束下实现超高带宽互联,其特点包括:算力规模为数十卡至千卡级、资源利用率80%以上、通信延迟为百纳秒级、支持统一内存访问,但定制化程度高[26][27][28] - 超节点主要由计算节点、交换节点和Scale-up网络互联构成,其互联方案(铜缆或光纤)直接影响系统的功耗、成本、规模和可靠性[29] - 目前主流互联方案分为两类:铜缆互联(如英伟达方案)具有功耗低、成本低、可靠性高的优势,但受距离限制,单个节点规模较小(如最大支持72张XPU卡);光纤互联(如华为方案)突破距离限制,节点规模更大(如支持384张XPU卡),但存在光模块功耗大、成本高、故障率高的短板[32] 2. 英伟达:领先优势建立在NVLink和NVLink Switch - 英伟达在超节点技术方案上处于领先地位,2024-2025年陆续推出GH200 NVL72、GB200/GB300 NVL72等成熟解决方案,预计2025年GB200/300 NVL72出货量约2800台[4] - 展望2026-2027年,英伟达计划推出Vera Rubin NVL144和Rubin Ultra NVL576,互联GPU数量将从72颗向576颗发展,并计划发布引入NVLink Switch Blade的新一代Kyber机架[4] - 英伟达超节点的核心优势在于NVLink和NVLink Switch技术,NVLink 5 Switch支持单GPU到GPU带宽1800GB/s,可构建72 GPU的NVLink域,总带宽达130 TB/s(双向)[5] - 后续NVSwitch Gen6和Gen7的GPU-to-GPU通信带宽将继续升级至3.6TB/s[5] - 然而,Scale-up网络的发展空间可能受限于AI产业探索降低张量并行与专家并行规模的技术方案,这或将限制英伟达的领先优势,未来实现Scale-up网络和Scale-out网络融合可能成为其新趋势[5] 3. 华为:对外开放灵衢互联协议,性能追赶英伟达 - 华为推出自研的灵衢互联协议,并从2.0版本起转向开放标准,但该协议尚未被国内业界广泛接受[6] - 国内Scale-up协议尚未统一,除华为灵衢外,还有中移OISA、腾讯ETH-X、高通量以太网ETH+以及中兴通讯OLink等多种互联协议在探索中,工信部正牵头推动CLink协议旨在形成统一国内标准[6] - 华为通过集群化方式实现性能追赶,其Atlas 950超节点预计2026年第四季度发布,总算力达到8 EFLOPS(FP8),超过同期英伟达NVL144的2.52 EFLOPS(FP8)[6] - Atlas 950超节点在内存容量(1152TB)与互联带宽(16.3PB/s)上也实现大幅领先[7] - 华为超节点技术仍在标准化阶段,Atlas 950放弃了全光互联架构,采用“柜内正交铜互联+柜间光互联”的混合设计,以平衡可靠性、成本、功耗和可扩展性[7] 4. 谷歌:建立光互联超节点,形成不对称竞争 - 谷歌TPU超节点建立了成熟的光互联Scale-up网络,技术路线独树一帜,其核心是光电路交换机[8] - 谷歌是全球首个将光电路交换机大规模商用部署于Scale-up网络的企业,该技术涉及精密光学、机械工程与半导体工艺的深度交叉,构筑了高技术壁垒[8] - 光电路交换技术具备优势:可跨多代光收发模块技术复用、每比特能耗较电分组交换机低数个数量级、引入的时延极小[9] - 2023-2025年谷歌陆续推出TPU v4、v5p、v7三代超节点,完成了技术路线探索和标准化,TPU v7已获得外部企业认可,例如Anthropic将在2026年直接从博通采购近100万颗TPU v7 Ironwood AI芯片[8] - 2027年,谷歌将推出第8代TPU,对标英伟达Vera Rubin,届时其超节点性能指标将进一步优化提升[8] 5. AMD:UALink成为重要开放标准,是有力竞品 - AMD作为Scale-up网络开放技术路线方,其主导的UALink成为重要开放标准,2025年1.0版本规范正式发布,2026年有望发布2.0版本[10] - UALink联盟受到业内广泛支持,截至2026年1月底,成员单位超过100家,预计其生态将在2027年迎来突破发展,被众多数据中心接纳,成为英伟达NVLink的有力挑战者[10] - AMD超节点Helios机架采用双宽机架设计,在复杂性、可靠性和性能间实现良好平衡,是目前业界最能挑战英伟达NVL72机柜的竞品之一[10] - 在功耗领域,Helios机架对比英伟达GB200 NVL72机柜优势显著,且双宽结构为未来升级(如扩展至144 GPU配置)预留了物理空间[10] 6. 行业技术路线与协议格局 - 目前四家头部厂商均推出各自的Scale-up协议:英伟达采用自研NVLink;谷歌采用私有ICI协议;AMD主导开放标准UALink;华为推出自研灵衢协议[34] - Scale-up网络主要有两个技术方向:一是封闭的私有技术方向,以英伟达、谷歌为代表;二是基于以太网的开放技术方向,以UALink和华为灵衢(2.0版后开放)为代表,两者均处于生态建设初期[38] - 各协议特点对比:英伟达NVLink和谷歌ICI Link为专有协议;UALink基于标准以太网组件,是开放标准;华为灵衢从2.0版起转向开放标准[39]
通信:超节点与Scale up网络行业:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
东兴证券· 2026-03-03 08:24
报告投资评级 - 看好/维持 [2] 报告核心观点 - 超节点与Scale-up网络是突破算力与通信瓶颈、支撑万亿级大模型与高实时性应用的关键基础设施,正处于快速发展期,并将成为算力芯片、网络部件、存储部件、供电和散热设施部件等新兴技术的重要应用市场 [4][24] - 自2025年开始,超节点成为AI算力网络重要的技术创新方向,AI芯片厂商的竞争从芯片算力性能延伸至芯片与Scale-up网络的双战场 [13] - 全球超节点竞争格局尚未确立,英伟达目前处于领先地位,但谷歌、AMD、华为等巨头的持续发力已对其一家独大格局构成挑战,市场将继续对谷歌、AMD及国产超节点板块价值重估 [13] 行业与市场分析 - **驱动因素**:大语言模型参数规模向万亿级演进,张量并行与专家并行对网络带宽与延迟要求极为严苛,驱动构建超高带宽、超低延迟的Scale-up网络 [25][26] - **技术路径**:Scale-up网络主要有两个技术方向:一是以英伟达、谷歌为代表的封闭私有协议方向;二是以UALink和华为灵衢为代表的基于以太网的开放标准方向 [38] - **市场参与者**:除了英伟达、华为、AMD、谷歌等芯片公司,微软、Meta、Amazon、中国移动、阿里巴巴、字节跳动、腾讯、百度、中科曙光、中兴通讯、浪潮信息等全球更多厂商加入竞争 [13] - **股价表现**:2023-2024年英伟达股价大幅跑赢谷歌、AMD及A股中证算力指数,但在2025年,英伟达股价累计涨幅38%,显著落后于谷歌、AMD及A股中证算力指数 [13] 主要厂商分析 英伟达 - **领先优势**:在超节点技术方案上处于领先优势,其优势建立在NVLink和NVLink Switch技术上 [5][6] - **产品迭代**:2024-2025年陆续推出GH200 NVL72、GB200/GB300 NVL72等成熟方案,预计2025年GB200/300 NVL72出货量约2800台 [5][93]。计划在2026-2027年推出Vera Rubin NVL144和Rubin Ultra NVL576,互联GPU数将从72颗向576颗发展 [5][93] - **技术核心**:NVLink重新设计通信架构,引入网状拓扑、差分信号传输等技术。截至2025年,NVLink 5 Switch支持单GPU到GPU带宽1800GB/s,可构建72 GPU的NVLink域,总带宽达130 TB/s(双向)[6]。后续NVSwitch Gen6和Gen7的GPU-to-GPU通信带宽将升级为3.6TB/s [6][94] - **具体方案**:GB200 NVL72超节点提供180 PFLOPS的TF32 Tensor Core算力,总内存容量13.8TB,Scale up单向带宽64800 GB/s,功耗145KW [53][54]。VR200 NVL72超节点总交换容量达259.2TB/s,相比GB200 NVL72提升一倍 [83] - **潜在挑战**:Scale up网络的发展空间可能限制英伟达的领先优势,实现Scale up与Scale out网络融合或将成为其新的发展趋势 [6][94] 华为 - **协议开放**:推出自研灵衢互联协议,并从2.0版本起转向开放标准,但该协议尚未被国内业界广泛接受 [7][163]。国内正积极推动CLink等标准统一 [7] - **性能追赶**:通过集群化方式实现性能追赶。Atlas 950超节点预计2026年第四季度发布,总算力达8 EFLOPS(FP8),内存容量1152TB,互联带宽16.3PB/s,相比英伟达同期NVL144(总算力2.52 EFLOPS)实现大幅领先 [7][163] - **技术方案**:第一代超节点CloudMatrix 384采用全光互联,Scale up计算单元为384个Ascend 910C芯片,BF16密集算力约300 PFLOPS,与GB200 NVL72接近,Scale up单向带宽134400 GB/s,约为GB200 NVL72的2.1倍 [140][141]。其互联使用了6912个400G LPO光模块和3168根光纤 [161] - **方案调整**:Atlas 950超节点将采用“柜内正交铜互联+柜间光互联”的混合设计,以控制总体拥有成本 [8][164] 谷歌 - **技术路线**:建立成熟的光互联Scale-up网络,技术路线独树一帜,与英伟达形成不对称竞争 [9][168] - **核心优势**:是全球首个将光电路交换机大规模商用部署于Scale-up网络的企业,其竞争优势建立在OCS交换机上 [9] - **产品迭代**:2023-2025年陆续推出TPU v4、v5p、v7三代超节点,完成了技术路线探索和方案标准化 [9]。2026年,Anthropic将直接从博通采购近100万颗TPU v7 Ironwood AI芯片 [9]。2027年将推出第8代TPU对标英伟达Vera Rubin [9] - **OCS技术**:谷歌Palomar OCS设备端口数为136×136,最大功耗仅108W,为同交换容量电分组交换机功耗的一小部分 [178][182]。OCS技术具备每比特能耗较电分组交换机低数个数量级、引入时延极小等优势 [10] AMD - **开放标准**:作为Scale-up网络开放技术路线方,其主导的UALink成为重要开放标准。截至2026年1月底,UALink联盟成员单位超过100家 [11] - **发展前景**:UALink正处于从标准制定走向产品落地阶段,预计生态将在2027年迎来突破发展,被众多数据中心接纳,将成为英伟达NVLink有力挑战方 [11] - **产品竞争力**:AMD超节点Helios机架采用双宽机架设计,其MI455x系列Helios机柜是目前业界最能挑战英伟达NVL72机柜的竞品,在功耗领域对比GB200 NVL72机柜优势显著 [11] 投资建议 - 看好谷歌、AMD以及国内超节点厂商 [14] - 看好英伟达、谷歌与AMD超节点供应链,包括PCB背板、高速铜缆、光模块、供电与液冷系统等 [14] - 基于交换机及芯片是Scale-up网络互联的关键设备,看好谷歌光路交换机核心零部件供应商以及UALink标准下的交换机芯片研发商 [14]