Helios 机架架构
搜索文档
计算机行业动态研究:超节点OEM:被低估的中国AI核心资产
国海证券· 2026-03-30 22:35
行业投资评级 - 维持计算机行业“推荐”评级 [44] 报告核心观点 - 超节点已成为AI算力基础设施的新常态,其技术复杂性和快速迭代性为具备系统级能力的超节点OEM厂商构筑了宽阔的护城河,并驱动其盈利能力提升 [6][8][42] - 在国产大模型调用量增长、国内CSP(云服务提供商)资本开支展望乐观的背景下,超节点OEM厂商将核心受益 [7][35][44] 超节点技术架构与行业趋势 - **超节点定义**:一种为构建大规模AI算力集群而设计的新型技术架构,通过高速互联协议将数十至数百个GPU或AI计算芯片紧密整合,形成逻辑上统一编址、高带宽、低延迟的协同计算系统,让大规模算力能够“像一台计算机一样工作” [6][10] - **核心特征与优势**:具备超大带宽、超低时延和内存统一编址三大特征,能打破传统集群的“通信墙”瓶颈,相较于传统集群可达到3倍以上的训练性能提升,并支持更大规模AI处理器的高效协同 [15][16] - **行业进入规模化应用**:2025年是超节点产品“元年”,预计2026年中国国产AI超节点将进入规模化应用阶段,以英伟达、AMD、华为、中科曙光、谷歌、阿里巴巴等为代表的头部企业正持续推出相关产品 [6][19] 主要厂商超节点产品进展 - **英伟达**:在GTC 2026大会上发布Vera Rubin NVL72,集成72颗Rubin GPU与36颗Vera CPU,相较前代训练大型混合专家模型所需GPU数量减少四分之三,推理吞吐量每瓦特提升高达10倍,单token成本降至十分之一 [19] - **AMD**:发布Helios机架架构,内部集成72颗基于2nm制程的Instinct MI400系列AI加速器,拥有总计31TB的HBM4内存,总内存带宽为1.4 PB/s,预计AI推理时可实现最高2.9 FP4 exaFLOPS算力 [22] - **华为**:展示智算Atlas 950 SuperPoD,基于灵衢互联协议,最大可支持8192张昇腾NPU卡高速互联,其FP8算力达到8EFLOPS,为业界水平的6.7倍,并拥有1152TB的共享内存池 [25] - **中科曙光**:发布世界首个无线缆箱式超节点“曙光scaleX40”,单机16U,部署密度是8卡机的2.5倍,最高支持40张GPU卡,FP8算力大于28PFLOPS,HBM总显存大于5TB [5][27] - **谷歌**:基于第七代TPU “Ironwood”构建SuperPod集群,单个POD可连接多达9216颗芯片,整个集群FP8峰值性能超过42.5 exaFLOPS,专为大规模AI推理优化 [30] - **阿里巴巴**:发布磐久128超节点AI服务器,支持128~144颗GPU芯片,采用开放架构,可实现高达Pb/s级别Scale-Up带宽,同等AI算力下推理性能较传统架构提升50% [34] 国内AI算力需求与供给展望 - **需求侧:国产大模型调用量领先**:OpenRouter数据显示,截至2026年3月22日的连续三周内,国产大模型调用量保持对美国模型的反超;3月1日至3月30日,调用量前十模型中,中国模型总量占比超50% [7][35] - **供给侧:产业链景气度走高**: - **晶圆厂**:中芯国际2025Q4产能利用率达95.7%;华虹半导体计划投资38亿元建设月产能5.5万片的12英寸生产线 [40] - **芯片供应**:英伟达H200已拿到许可并获客户订单,正在生产过程中 [40] - **算力租赁**:宏景科技拟申请不超过600亿元授信额度并计划13.5亿元定增以采购算力服务器;协创数据披露2025年至2026Q1客户采购额达400亿元以上 [7][40] 超节点对OEM厂商的价值重塑 - **技术复杂度驱动溢价**:超节点在系统架构设计、信号完整性、供电、散热等方面要求极高,产品迭代快(例如NVIDIA Vera Rubin机架含130万个独立组件,近1300个芯片),这为具备系统级能力的OEM厂商构筑了宽阔护城河 [8][41] - **价值重心上移**:行业价值重心从标准化硬件组装上移至复杂的定制化系统设计、深度调优和全栈集成服务,OEM厂商凭借架构设计、热管理、供应链整合等核心能力有望获得显著产品溢价和更高客户粘性 [8][42] 投资建议与相关公司 - **投资策略**:超节点OEM厂商将核心受益于AI基础设施新常态和国内乐观的资本开支环境 [44] - **相关公司列表**:报告列出了服务器/超节点OEM、AI芯片、CPU、连接、云计算、模型、IDC等七大产业链环节的数十家相关公司 [8][44]