Workflow
AMD IF128
icon
搜索文档
计算机行业周报:超节点:从单卡突破到集群重构-20250709
申万宏源证券· 2025-07-09 15:44
报告行业投资评级 - 看好 [3] 报告的核心观点 - 大模型参数爆炸式增长驱动下,算力需求从单点转向系统级整合,超节点在机柜级互联与跨机柜组网技术上取得突破,单柜高密度与多机柜互联双向扩展,背后是通信协议与工程成本的平衡 [4] - 国产超节点方案以华为 CloudMatrix 384 为代表,实现算力规模突破,打破单卡性能瓶颈,验证了国产方案在大规模组网中的工程能力 [4] - 超节点产业化将重塑算力产业链分工,催生服务器整合、光通信增量及液冷渗透提升等投资机会,芯片厂商纵向整合趋势明显 [4] - 市场当前对超节点的认知存在两大预期差,一是低估国产方案在推理场景的性价比优势,二是忽视算力网络架构变革对产业链的重构 [4] - 建议关注光通信、网络设备与芯片、数据中心产业链、铜连接、AI 芯片与服务器供应商等领域相关标的 [4] 根据相关目录分别进行总结 超节点:AI 算力网络新趋势 - Scale up 和 Scale out 是算力系统扩容的两个重要维度,分别追求硬件紧密耦合和弹性扩展,二者在协议栈、硬件、容错机制上存在本质差异,通信效率不同 [15] - 英伟达在 Hopper GPU 一代尝试突破服务器架构、在机柜层级拓展 Scale up 系统,2024 年推出的 GB200 NVL72 是较为成熟的超节点产品,通过单层 NVSwitch 实现全互联,应对通信峰值能力显著提升 [27][32] - AMD 的 IF128 方案尝试融合以太网技术,打破 Scale-up 与 Scale-out 边界,预计将在 26H2 推出搭载 128 个 MI450X 的超节点产品 [38][43] - 特斯拉 Dojo 专为视频等视觉训练数据打造,采用 2D Mesh 拓扑结构,但进展不及预期,其封闭生态和 2D Mesh 拓扑结构为重要掣肘 [50][67] 超节点掣肘?华为的解答 - 超节点设计需考虑模型需求、IDC 实践和成本等因素,在模型角度 72 卡规模以上的 Scale up 节点是较优选择,未来更大规模的超节点预计是必然选择;在 IDC 实践角度,模块化布局利于交付和运维;在成本角度,光通信等组网成本、系统复杂度和维护制约了超节点 Scale up 的规模设计 [72][77][79] - 华为 CloudMatrix 384 超节点通过两层 UB Switch 实现全互联,形成无带宽收敛的 Clos 网络拓扑,实测数据显示其对性能影响较小,该超节点算力为 NVL72 的 1.7 倍,内存为 3.6 倍,更适合未来 AI 工作负载 [82][92][95] - 华为 CM384 机柜为推理而生,针对 Prefill 和 Decode 两大阶段进行了针对性优化;深度适配 DeepSeek,机柜内资源调度灵活性强,但多机柜灵活性差;在国产 AI 芯片方案中已经具备一定性价比,体现在单算力的吞吐 [100][107][119] 产业链影响:分工细化,各环节均有增量 - 服务器产业链分工细化,AI 芯片厂商纵向整合,提升自身通信、存储、软件等能力是确定趋势,代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商,相关标的包括海光信息、中科曙光等 [123][128] - 光通信方面,国产超节点方案带来光模块增量,预计增加 400G 或 LPO 等成本优化方案的采购,同时加速向 800G 演进,整体光模块的需求比最高可达 1:18,相关标的包括华工科技、光迅科技等 [129][139] - 铜连接方面,华为 UB-Mesh 网络架构具备降低成本、增强可靠性等特性,更长时间维度看,光通信是 Scale up 网络需求的演进方向,光电混合是当前重要架构,相关标的包括意华股份、瑞可达等 [140][144] - IDC 产业链方面,以 Cloud Matrix 为代表的超节点方案预计将增加 AIDC 需求,液冷是必要选项,相关标的包括润泽科技、奥飞数据等 [149][151] 重要公司估值 - 报告给出了海光信息、中科曙光、浪潮信息等多家公司 2024A-2027E 的归母净利润及 PE 等估值数据 [153]