Workflow
GB200 模组
icon
搜索文档
超节点:光、液冷、供电、芯片的全面升级
开源证券· 2026-01-28 19:15
行业投资评级 - 投资评级:看好(维持)[2] 报告核心观点 - 超节点(SuperPod)是AI算力基础设施发展的必然趋势,旨在通过网络互联将多个分离的算力芯片整合成逻辑上的“超大型GPU/ASIC”,以突破单一服务器在效率和可靠性上的瓶颈[4] - 超节点架构新增了Scale Up互联需求,将带动光通信、液冷、供电、芯片等多个环节的全面升级[5] - 超节点技术有助于弥补国产芯片在单卡算力上的差距,通过集群化方式提升整体性能,助力国产AI生态发展[6] - 伴随AI训练和推理算力需求持续增长,超节点产业链有望长期受益,报告看好“网络端+AIDC+计算端”三条核心方向,以及“光+液冷+供电+芯片”四大赛道[7] 模型发展与超节点时代背景 - AI模型加速迭代,参数量从千亿级迈向万亿级(例如Qwen3-Max超过1T,文心5.0达2.4T),训练数据量达EB级,对千卡、万卡算力集群需求迫切[14] - 模型训练算力需求已达到十万亿兆量级,且仍以每年4.1倍的速度快速增长[14] - Scaling Law从预训练泛化至后训练和逻辑推理全流程,模型性能随思考次数增长而提高,进一步推高算力需求[15] - 算力集群扩张方式主要为Scale Up(纵向扩展)和Scale Out(横向扩展)两个维度,超节点是集群的最小单元[17] - 基础设施从单卡、八卡模组迈入超节点服务器集群阶段,以应对万亿参数大模型(如GPT4 1.8T需超10TB显存)的训练需求[23] 超节点技术架构与互联协议 - 构造超节点的核心在于更大的节点内互联,硬件与软件协议需互相适配整合[39] - Scale Up组网架构主要包括:Fat-tree胖树拓扑、Mesh类拓扑、Torus拓扑等[41] - **胖树架构示例**:英伟达GB200 NVL72采用一层胖树架构,通过9个NVlink Switch tray连接72个GPU,形成总带宽130TB/s的全mesh网络[41] - **Mesh类架构示例**:AMD MI350采用Infinity Fabric实现8节点Fullmesh互联;华为柜内64个NPU采用2Dfullmesh互联[54] - **Torus拓扑示例**:谷歌TPU采用2D/3D Torus架构,TPU v7支持9216颗芯片集群[59] - Scale Up互联协议正从大厂私有走向开源开放,主要协议包括:[61] - **NVLink**:从P100的160GB/s迭代至B200的1.8TB/s,单卡带宽年复合增长率超60%,并于2025年推出开放生态策略[61][62] - **UAlink**:由AMD、AWS、谷歌等公司发起的开放式互连标准,UALink 1.0支持每通道最高200 GT/s[63] - **SUE(Scale Up Ethernet)**:博通发布的框架,旨在将以太网引入AI系统内部Scale Up领域,其Tomahawk Ultra芯片在51.2 Tbps吞吐量下实现250ns低交换延迟[67][68] - **UB(UnifiedBus)**:华为的灵衢协议,支持百ns~us级低时延,并可通过UBoE与以太网融合组网[72] - **HSL**:海光发布的系统总线互联协议1.0规范[77] - **OISA**:中国移动携手48家单位发布的协议,OISA 2.0支持1024张AI芯片,带宽突破TB/s级,时延缩短至数百纳秒[77] 超节点架构带来的产业链升级机会 - 超节点服务器Rack主要由计算节点、交换节点、TOR交换机、供电单元、供电母线、液冷散热配套等单元组成[80] - 随着渗透率增长,将持续拉动以下板块需求:[5][80] - **计算与交换**:算力卡、交换芯片、交换机 - **光通信**:光模块、光芯片 - **供电**:高功率电源、高压UPS/HVDC - **散热**:服务器液冷散热(液冷占比80%以上,未来向全液冷发展) - **其他**:铜缆、PCB - **以国产ETH-X超节点方案为例**:[84][90][94][96] - **计算节点(Computer tray)**:包含GPU、CPU、PCIe Switch等,采用风液混合散热 - **交换节点(Switch tray)**:提供柜内GPU全带宽Scale Up互连,交换芯片搭配液冷冷板 - **供电**:机柜最大功耗支持132KW,采用Busbar供电,支持N+2冗余 - **制冷**:以液冷为主,风冷为辅,需搭配冷板模组、快接头、CDU等 国产超节点发展案例与性能对比 - **华为Atlas 900 A3 SuperPoD(CloudMatrix 384)**:[98] - 由192颗鲲鹏CPU和384颗昇腾910C芯片通过UB网络互联而成 - 单个系统包含12个计算柜和4个互联柜 - 昇腾910C芯片采用双die共封装,片上互联带宽540 GB/s,内存带宽3.2 TB/s[100] - **性能对比**:尽管单颗昇腾910C芯片的BF16性能仅为英伟达GB200模组的1/3,但单个CloudMatrix 384集群的总体BF16性能是英伟达NVL72的1.7倍,总内存容量为后者3.6倍,总内存带宽为后者2.1倍[6][112] - **部署进展**:截至2025年9月,Atlas 900 A3 SuperPoD已累计部署超300套,服务超20位客户[6] - **规模扩大**:华为后续发布Atlas 950和Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡[113] - Atlas 950支持8192张昇腾950DT芯片,FP8算力达8EFlops,内存容量1152 TB,互联带宽16.3 PB/s - 相比英伟达计划中的NVL144,Atlas 950总算力是其6.7倍,内存容量是其15倍,互联带宽是其62倍[113] 投资建议与关注标的 - 报告看好“网络端+AIDC+计算端”三条核心方向,以及“光+液冷+供电+芯片”四大赛道[7] - **具体推荐标的包括**:[7][116][117] - **光模块&光芯片**:中际旭创、新易盛、华工科技、源杰科技 - **液冷**:英维克 - **服务器电源**:欧陆通 - **交换芯片**:盛科通信-U、中兴通讯、紫光股份 - **AIDC(数据中心)**:大位科技、光环新网、奥飞数据、新意网集团 - **部分公司业务介绍**: - **盛科通信**:产品覆盖100Gbps~25.6Tbps交换容量,是国内稀缺的商用交换机芯片龙头[121] - **中兴通讯**:推出搭配自研凌云AI交换芯片的超节点系统,并联合合作伙伴推出国内首个光互连光交换GPU超节点[124] - **锐捷网络**:已展示ETH128超节点产品,并与两家GPU厂商完成适配测试[125] - **紫光股份**:其UniPoD S80000超节点支持64卡柜内全互联,相比传统8卡服务器,卡间互联带宽提升8倍,单卡推理效率提升80%[127] - **浪潮信息**:发布“元脑SD200”超节点AI服务器,在单机内实现64路GPU高速互连,显存地址空间扩增8倍[130]