Workflow
SUE
icon
搜索文档
超节点系列报告一:国产超节点方案量产元年,看好以太网成为主流技术路径
东吴证券· 2026-04-07 19:10
报告行业投资评级 - 增持(维持)[1] 报告核心观点 - 报告认为,超节点作为AI算力基建核心形态,国内建设已全面提速,国产方案能力跻身世界一流[4][9] - 报告核心看好以太网凭借开放生态、低成本、多厂商兼容等优势,成为AI算力Scale Up(纵向扩展)的主流互联协议,是打破英伟达NVLink封闭垄断的最优解[4][28] - 报告梳理了在交换芯片等关键环节的国产替代玩家,并给出了相应的投资建议[4][63] 根据目录分章节总结 1. 超节点:国内超节点能力跻身世界一流 - 超节点是面向大模型训练的新一代整机柜级一体化AI算力基础设施,通过芯片级高速互联、统一液冷供电与集中管理,解决传统服务器集群的通信墙、功耗墙、复杂度墙三大瓶颈[4][9] - 技术难点集中在高密集成、高速互联、全局协同、可靠运维四个层面,单机柜需支撑数百千瓦级供电与高效液冷,并实现TB/s级带宽、百纳秒级时延的紧耦合互联[12] - 海外层面,英伟达GB200 NVL72为标杆方案,国内厂商自2024年底起密集推出产品:腾讯ETH-X支持64颗GPU,华为Atlas A3 900 SuperPod支持384颗昇腾910 NPU,阿里磐久AL128支持128-144卡,中科曙光ScaleX640达640卡规模,2026年华为Atlas A3 950 SuperPod更支持8192颗昇腾950 NPU的万卡级规模[4][13][14] 2. 为什么更看好以太网成为Scale Up主流协议? 2.1. Scale Up领域主流通信协议发展 - **GPU-CPU间直连协议**:PCIe是通用主流,但树状拓扑导致GPU间无法高效直连;CXL基于PCIe实现内存一致性,但性能仍受PCIe约束[18][19][20] - **GPU多卡间直接通信主流协议**:国际上是英伟达NVLink封闭生态与AMD/博通以太网开源开放双轨竞争[4][21] - 英伟达NVLink 5单端口带宽达900GB/s,单Pod支持最多576个GPU,构建了性能与生态壁垒[21][23][41] - AMD主导的UALink和博通推出的SUE是基于以太网的开源协议,成为打破垄断的核心力量,UALink单Pod可支持1024个GPU[4][22][23] - **国内技术路线**:形成三条路线,包括华为灵衢(UB)、海光HSL等自主可控专用系统总线;字节跳动EthLink、腾讯Eth-X等以太网优化路线;以及中国移动OISA开放基础设施架构[4][24][26][27] 2.2. 以太网有望成为Scale Up领域主流协议 - **开放生态塑造竞争力**:以太网依托全产业链开放生态,正成为打破NVLink垄断的核心路径。英伟达也已加入产业协同,与AMD、英特尔、博通等成立ESUN联盟推动以太网适配Scale Up需求[4][28][29] - **技术策略补足延迟短板**:以太网原生延迟劣势可通过两大技术策略解决 - 在网计算:博通Tomahawk Ultra交换机引入INC能力,将时延从600ns/800ns优化至250ns级别,接近其PCIe 5.0交换机115ns的水平[30][31] - 计算与通信重叠:通过调度优化实现并行执行,避免计算单元空闲等待[30] 2.3. PCIe演进 - PCIe作为核心I/O互联总线持续迭代,PCIe 6.0 x16双向带宽达256GB/s,PCIe 7.0/8.0将进一步提升至512/1024GB/s[35][37] - 博通是PCIe行业领导者,已出货10亿端口,构建了覆盖全代际的产品矩阵[37] - AsteraLabs是PCIe Retimer行业领先者,其Aries 6系列Retimer典型功耗仅11W,解决高速信号衰减问题[38] 2.4. 私有协议(英伟达NVLink)的优劣势 - 优势:极致性能(第五代单GPU双向带宽1.8TB/s)、支持内存一致性、深度绑定CUDA生态[41] - 劣势:生态封闭、仅适配自家GPU、专用硬件成本高昂、闭源限制第三方优化[41] 3. 国产替代玩家梳理 3.1. 独立交换芯片厂商 - **盛科通信**:国内以太网交换芯片领先企业,12.8T/25.6T交换芯片已进入客户推广阶段,25.6Tbps产品支持800G端口速率。2019-2025年营业收入从1.92亿元增长至11.51亿元[4][42][45][47] - **数渡科技**:国内极少数掌握PCIe 5.0交换芯片自主设计能力并可量产的企业,产品支持GPU直连,是国内构建自主超节点的稀缺选择,已处于产品导入阶段[4][48] - **澜起科技**:在PCIe高速互连领域拓展,已实现PCIe 5.0 Retimer芯片产业化,并新发布PCIe 6.x/CXL 3.x Retimer芯片,正在研发PCIe 7.0 Retimer及Switch芯片[50] - **云合智网**:已形成CLX84(最大4.0Tb/s)和CLX86(最大25.6Tb/s)两大以太网交换芯片系列[51] - **楠菲微电子**:形成多层次产品布局,其ES8000系列高性能以太网交换芯片提供最高8.0Tb/s带宽[52] 3.2. 大厂自研交换芯片 - **海光信息**:在Chiplet互联和高速I/O方向深度布局,2025年开放其CPU互联总线协议(HSL)生态,与中科曙光深度协同,为超节点提供算力核心[53][54] - **华为**:超节点集群布局领先,Atlas 950 SuperPod支持8192卡,并开放“灵衢”(UB)2.0互联协议技术规范以构建开放生态[57] - **中兴通讯**:已形成从通用交换芯片到面向AI超节点的自研交换/NP芯片全栈布局,2025年推出基于自研AI交换芯片的超节点方案,GPU间通信带宽达400GB/s至1.6TB/s[58] - **新华三**:自主研发智擎系列可编程NP芯片,智擎660接口吞吐能力1.2Tbps,集成度超过180亿晶体管[60][61] 4. 投资建议 - 重点推荐盛科通信、海光信息[4][63] - 建议关注中兴通讯、澜起科技、万通发展(数渡科技)等[4][63]
回归技术--Scale Up割裂的生态
傅里叶的猫· 2025-10-19 00:01
文章核心观点 - 文章核心观点是分析AI服务器Scale Up高速互联技术的市场格局、主流技术方案及其发展前景,重点探讨了英伟达NVLink、博通SUE和由AMD、Marvell等公司推动的UALink三大技术路线的竞争态势 [1][3][5] - 随着AI算力需求增长,Scale Up网络市场预计将从2024年的40亿美元以34%的年复合增长率增长至2029年的170亿美元,为非英伟达阵营的互联技术提供了巨大市场机会 [5][7] - Scale Up技术生态目前呈现割裂状态,未来竞争结果将取决于xPU市场份额划分、新网络标准演进以及客户的数据中心架构选择 [10][22] Scale Up和Scale Out概念 - Scale Up网络指同一台服务器或同一机架内GPU之间的高速通信网络,通过加速器互联使其协同工作,相当于一台大型超级计算机 [3] - 在Hopper时代以8卡机为主,服务器内部GPU可通信,服务器间需接交换机;Blackwell时代的GB200 NVL72则将一个机架内的72个GPU视为单一虚拟GPU,消除了服务器间通信瓶颈 [5] 主流Scale Up方案对比 - 英伟达采用专有NVLink协议实现GPU集群互联,在GB200/300的NVL72配置中,NVLink扩展至Blackwell GPU与Grace CPU的连接,预计未来将继续仅通过NVLink实现Scale Up [11] - AMD借助专有Infinity Fabric技术实现MI300 GPU的Scale Up,单个服务器最多连接8个GPU;即将推出的MI400将采用72-GPU机架配置,通过基于以太网的UALink实现Scale Up [12] - 谷歌通过芯片间互联技术实现机架内TPU Scale Up,借助光电路交换技术实现跨机架扩展;基于TPUv7架构的完整扩展pod可支持多达9216个TPU [13] - 亚马逊采用专有NeuronLink互联技术实现Scale Up通信,可在四个Trainium2实例间连接多达64个芯片;目前正与阿斯特拉实验室合作研发专用Scale Up交换机,预计2026年推出 [14] - 博通的SUE采用AI优化以太网,具备超低延迟和高性能,使用博通Tomahawk交换机,支持横向与纵向扩展的第六代产品已于6月出货 [17] - UALink是专为AI设计的内存语义互联技术,目前处于发展初期,由AMD、ALAB、MRVL及多家超大规模企业组成的联盟支持,基于AMD的Infinity Fabric,物理层依托以太网 [17] 国内超节点发展现状 - 目前国内已公布超节点方案的只有华为和阿里,华为有UB Mesh,阿里有ALink;其他国产GPU厂由于系统复杂性高且需要自有互联协议,面临较大挑战 [9] - 阿里欢迎其他厂家加入ALink生态,但其他厂家可能因竞争关系不愿兼容,同时受国际形势影响可能也不会选择国外互联总线,导致国内生态发展存在不确定性 [9] 互联介质选择:光与铜 - 当前Scale Up网络以铜缆为主,因其在短距离内具有纳秒级低延迟和成本优势,能避免光器件的额外成本和功耗 [20] - 单机架加速器部署规模上限约为72个,受架构、功耗与散热、物理密度和可靠性四大因素限制;若规模超过100个或需转向光连接 [20] - 预计铜缆将在Scale Up网络中长期使用,但当Scale Up突破单机架实现数百个GPU集群时,可能于2028年及以后引入光器件 [20][21] 市场竞争格局与关键因素 - Marvell在UALink生态中的主要贡献是准备做UALink switch,这是整个生态中最关键的一环 [22] - 当前市场处于早期阶段,架构、技术标准和客户偏好仍在变化中,最终胜出的Scale Up技术尚未确定,但市场规模足以支撑多家供应商共存 [22] - 长期来看,非英伟达阵营预计将从专有Scale Up网络逐步转向UAL、SUE等开源解决方案,这些技术有望在2027-2028年随着技术成熟及新ASIC产品放量而得到更广泛应用 [22]
开源证券:国产Scale-up/Scale-out硬件商业化提速 聚焦AI运力产业投资机遇
智通财经网· 2025-10-15 15:35
AI算力架构演进与硬件需求 - 传统算力架构难以满足高效、低耗、大规模协同的AI训练需求,超节点成为趋势[1] - 超节点通过提升单节点计算能力,大幅带动Scale up相关硬件需求[1] - 超大规模AI集群建设推动大量节点互联,带动Scale out硬件需求,单一地区电力资源成为瓶颈后,跨数据中心的Scale across方案将逐步采用[1][3] 算力、存力与运力的协同 - AI硬件能力由算力、存力、运力三位一体协同推动[1] - 算力由GPU性能和数量决定,存力当前主流方案是使用贴近GPU的超高带宽HBM缓存[1] - 运力分为Scale up、Scale out和Scale across三个场景,分别对应节点内、节点间与数据中心间的高速通信和数据传输能力[1] - 随GPU计算能力与HBM带宽提升,运力瓶颈将导致AI数据中心节点空置率高,GPU性能浪费,运力发展将成为提升AI数据中心运算能力的重点[2] 运力市场规模与增长 - Scale up交换芯片已成为数据中心主力交换需求并持续增长,预计到2030年全球市场规模接近180亿美元,2022-2030期间年复合增长率约为28%[3] 通信协议发展趋势 - 针对Scale up和Scale out有不同的通信协议,大厂自研私有协议与第三方及中小厂推动公有协议将成为未来发展趋势[1][4] - Scale up层面,英伟达NVlink、AMD Infinity Fabric和华为UB mesh是私有协议代表,博通推动的SUE与行业历史悠久的PCIe是公有协议代表[4] - Scale out层面,英伟达Infiniband为私有协议,博通致力于推动基于公有以太网的RoCE2,海外众多厂商还一起推动超级以太网联盟[4] 运力硬件国产化机遇 - 运力硬件主要涉及交换芯片与部分改善信号质量的数模混合芯片,国产自给率极低,博通、Marvell占据全球商用交换芯片90%以上市场份额[5] - 国产厂商已逐步完成产品量产并走向商业化,如数渡科技自主设计的PCIe 5.0交换芯片已实现量产并正导入客户应用,盛科通信面向大规模数据中心的Arctic系列已在2023年年底送样测试[5] - 运力硬件相关公司正走向从产品化至商业化的快车道,国产替代空间广阔,有望成为下一个高赔率的国产替代新方向[2][5] 投资建议 - PCIe硬件受益标的包括万通发展(数渡科技)、澜起科技等[6] - 以太网硬件受益标的包括盛科通信、中兴通讯、裕太微等[6]
国内外AI服务器Scale up方案对比
傅里叶的猫· 2025-08-18 23:04
Scale Up技术概述 - Scale Up通过提升单台服务器的计算密度增强算力,如集成更多高性能GPU、更大内存或更快存储,形成"超级节点"[1] - 特点包括高带宽、低时延,适合AI推理的大显存并行计算及训练中的张量并行(TP)和专家并行(EP)任务[1] - 支持在网计算,如在Switch节点加速All Reduce操作,提升GPU协作效率[1] - 依赖高端硬件导致成本较高,常与Scale Out结合使用以兼顾性能与扩展性[1] 英伟达NVLink方案 - 采用自研NVLink高速互连技术,通过铜缆实现机柜内GPU高带宽低延迟连接[3] - GB200 NVL72架构集成18个计算托盘和9个NVLink Switch托盘,每个计算托盘含4颗B200 GPU(共72颗)[3][8] - 每个NVSwitch5芯片带宽28.8Tb/s,整机柜含18颗NVSwitch5芯片,共72个端口对应72颗GPU[8] - B200 NVLink带宽1.8TB/s,含18个端口,每个端口带宽100GB/s(2x224G PAM4 Serdes)[8] - 未来Rubin架构将升级至NVLink 6.0/7.0,带宽密度提升,延迟降低[5] NVLink Fusion生态开放 - 推出NVLink Fusion技术,向第三方CPU/加速器开放生态,允许通过NVLink C2C或NVLink 5 Chiplet集成[11][12] - 采用"二选一"模式:仅支持半定制CPU或加速器,节点必须包含英伟达芯片[12] - 合作伙伴包括Alchip、AsteraLabs等芯片厂商,富士通/高通研发兼容CPU,Cadence/Synopsys提供IP支持[13] AMD UALink方案 - UALink是由AMD等公司推出的开放互连标准,支持每通道200GT/s,最多连接1024个加速器,延迟<1微秒[16] - MI400采用UALoE方案,通过以太网物理层传输UALink协议,兼容现有以太网生态[17] - Helio UALoE 72架构含18个计算托盘(各4颗MI400 GPU)和6个交换托盘(各2颗Tomahawk6 102.4T交换机)[18] 其他厂商方案 - **AWS NeuronLink**:基于PCIe Gen5协议,Trn2-Ultra64机柜间用AEC、机柜内用DAC互连,Teton PDS Ultra含40个Scorpio X交换机[21][22] - **Meta SUE**:采用博通Tomahawk5/Jericho3交换芯片,Minerva架构含16个MTIA计算托盘和6个交换托盘[24] - **Google ICI**:TPU v4 pod采用3D Torus拓扑(4×4×4),机柜内DAC连接,机柜间通过OCS光交换组成4096 TPU集群[26] - **华为UB**:Cloud Matrix 384系统含384颗昇腾910C芯片,通过统一总线(UB)光互连,使用6912个400G光模块[28][29] 技术演进趋势 - NVLink带宽从4.0的450GB/s提升至7.0的1800GB/s,NVSwitch聚合带宽从1600GB/s增至14400GB/s[6] - 互连技术从封闭走向有限开放(如NVLink Fusion),同时出现开放标准(UALink)与私有协议(ICI/NeuronLink)并存[11][16][26] - 光互连在跨机架场景应用增多(华为UB用5376个400G光模块),铜缆仍主导机柜内连接[29][3]