超节点与Scale up网络行业报告:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局
搜狐财经·2026-03-06 09:55

文章核心观点 超节点与Scale-up网络是支撑万亿级大模型与高实时性应用的关键基础设施,正处于快速发展期,并将成为算力芯片、网络部件、存储部件、供电散热等新兴技术的重要应用市场[2]。英伟达、谷歌、AMD和华为四家头部AI算力芯片厂商在该领域各有布局,行业格局正从英伟达一家独大向多元化竞争演变[2]。 根据相关目录分别进行总结 1. 超节点与Scale-up网络概述 - 大语言模型参数规模向万亿级演进,驱动对高带宽、低延迟网络的需求,构建Scale-up网络(纵向扩张网络)成为主流技术路径[23] - Scale-up网络旨在在一定成本和技术约束下实现超高带宽互联,其特点包括:算力规模为数十卡至千卡级、资源利用率80%以上、通信延迟为百纳秒级、支持统一内存访问,但定制化程度高[26][27][28] - 超节点主要由计算节点、交换节点和Scale-up网络互联构成,其互联方案(铜缆或光纤)直接影响系统的功耗、成本、规模和可靠性[29] - 目前主流互联方案分为两类:铜缆互联(如英伟达方案)具有功耗低、成本低、可靠性高的优势,但受距离限制,单个节点规模较小(如最大支持72张XPU卡);光纤互联(如华为方案)突破距离限制,节点规模更大(如支持384张XPU卡),但存在光模块功耗大、成本高、故障率高的短板[32] 2. 英伟达:领先优势建立在NVLink和NVLink Switch - 英伟达在超节点技术方案上处于领先地位,2024-2025年陆续推出GH200 NVL72、GB200/GB300 NVL72等成熟解决方案,预计2025年GB200/300 NVL72出货量约2800台[4] - 展望2026-2027年,英伟达计划推出Vera Rubin NVL144和Rubin Ultra NVL576,互联GPU数量将从72颗向576颗发展,并计划发布引入NVLink Switch Blade的新一代Kyber机架[4] - 英伟达超节点的核心优势在于NVLink和NVLink Switch技术,NVLink 5 Switch支持单GPU到GPU带宽1800GB/s,可构建72 GPU的NVLink域,总带宽达130 TB/s(双向)[5] - 后续NVSwitch Gen6和Gen7的GPU-to-GPU通信带宽将继续升级至3.6TB/s[5] - 然而,Scale-up网络的发展空间可能受限于AI产业探索降低张量并行与专家并行规模的技术方案,这或将限制英伟达的领先优势,未来实现Scale-up网络和Scale-out网络融合可能成为其新趋势[5] 3. 华为:对外开放灵衢互联协议,性能追赶英伟达 - 华为推出自研的灵衢互联协议,并从2.0版本起转向开放标准,但该协议尚未被国内业界广泛接受[6] - 国内Scale-up协议尚未统一,除华为灵衢外,还有中移OISA、腾讯ETH-X、高通量以太网ETH+以及中兴通讯OLink等多种互联协议在探索中,工信部正牵头推动CLink协议旨在形成统一国内标准[6] - 华为通过集群化方式实现性能追赶,其Atlas 950超节点预计2026年第四季度发布,总算力达到8 EFLOPS(FP8),超过同期英伟达NVL144的2.52 EFLOPS(FP8)[6] - Atlas 950超节点在内存容量(1152TB)与互联带宽(16.3PB/s)上也实现大幅领先[7] - 华为超节点技术仍在标准化阶段,Atlas 950放弃了全光互联架构,采用“柜内正交铜互联+柜间光互联”的混合设计,以平衡可靠性、成本、功耗和可扩展性[7] 4. 谷歌:建立光互联超节点,形成不对称竞争 - 谷歌TPU超节点建立了成熟的光互联Scale-up网络,技术路线独树一帜,其核心是光电路交换机[8] - 谷歌是全球首个将光电路交换机大规模商用部署于Scale-up网络的企业,该技术涉及精密光学、机械工程与半导体工艺的深度交叉,构筑了高技术壁垒[8] - 光电路交换技术具备优势:可跨多代光收发模块技术复用、每比特能耗较电分组交换机低数个数量级、引入的时延极小[9] - 2023-2025年谷歌陆续推出TPU v4、v5p、v7三代超节点,完成了技术路线探索和标准化,TPU v7已获得外部企业认可,例如Anthropic将在2026年直接从博通采购近100万颗TPU v7 Ironwood AI芯片[8] - 2027年,谷歌将推出第8代TPU,对标英伟达Vera Rubin,届时其超节点性能指标将进一步优化提升[8] 5. AMD:UALink成为重要开放标准,是有力竞品 - AMD作为Scale-up网络开放技术路线方,其主导的UALink成为重要开放标准,2025年1.0版本规范正式发布,2026年有望发布2.0版本[10] - UALink联盟受到业内广泛支持,截至2026年1月底,成员单位超过100家,预计其生态将在2027年迎来突破发展,被众多数据中心接纳,成为英伟达NVLink的有力挑战者[10] - AMD超节点Helios机架采用双宽机架设计,在复杂性、可靠性和性能间实现良好平衡,是目前业界最能挑战英伟达NVL72机柜的竞品之一[10] - 在功耗领域,Helios机架对比英伟达GB200 NVL72机柜优势显著,且双宽结构为未来升级(如扩展至144 GPU配置)预留了物理空间[10] 6. 行业技术路线与协议格局 - 目前四家头部厂商均推出各自的Scale-up协议:英伟达采用自研NVLink;谷歌采用私有ICI协议;AMD主导开放标准UALink;华为推出自研灵衢协议[34] - Scale-up网络主要有两个技术方向:一是封闭的私有技术方向,以英伟达、谷歌为代表;二是基于以太网的开放技术方向,以UALink和华为灵衢(2.0版后开放)为代表,两者均处于生态建设初期[38] - 各协议特点对比:英伟达NVLink和谷歌ICI Link为专有协议;UALink基于标准以太网组件,是开放标准;华为灵衢从2.0版起转向开放标准[39]

Nvidia-超节点与Scale up网络行业报告:谷歌、AMD、国产超节点持续发力,打破英伟达独大格局 - Reportify