Workflow
华为CloudMatrix 384
icon
搜索文档
计算机行业周报:超节点:从单卡突破到集群重构-20250709
申万宏源证券· 2025-07-09 15:44
报告行业投资评级 - 看好 [3] 报告的核心观点 - 大模型参数爆炸式增长驱动下,算力需求从单点转向系统级整合,超节点在机柜级互联与跨机柜组网技术上取得突破,单柜高密度与多机柜互联双向扩展,背后是通信协议与工程成本的平衡 [4] - 国产超节点方案以华为 CloudMatrix 384 为代表,实现算力规模突破,打破单卡性能瓶颈,验证了国产方案在大规模组网中的工程能力 [4] - 超节点产业化将重塑算力产业链分工,催生服务器整合、光通信增量及液冷渗透提升等投资机会,芯片厂商纵向整合趋势明显 [4] - 市场当前对超节点的认知存在两大预期差,一是低估国产方案在推理场景的性价比优势,二是忽视算力网络架构变革对产业链的重构 [4] - 建议关注光通信、网络设备与芯片、数据中心产业链、铜连接、AI 芯片与服务器供应商等领域相关标的 [4] 根据相关目录分别进行总结 超节点:AI 算力网络新趋势 - Scale up 和 Scale out 是算力系统扩容的两个重要维度,分别追求硬件紧密耦合和弹性扩展,二者在协议栈、硬件、容错机制上存在本质差异,通信效率不同 [15] - 英伟达在 Hopper GPU 一代尝试突破服务器架构、在机柜层级拓展 Scale up 系统,2024 年推出的 GB200 NVL72 是较为成熟的超节点产品,通过单层 NVSwitch 实现全互联,应对通信峰值能力显著提升 [27][32] - AMD 的 IF128 方案尝试融合以太网技术,打破 Scale-up 与 Scale-out 边界,预计将在 26H2 推出搭载 128 个 MI450X 的超节点产品 [38][43] - 特斯拉 Dojo 专为视频等视觉训练数据打造,采用 2D Mesh 拓扑结构,但进展不及预期,其封闭生态和 2D Mesh 拓扑结构为重要掣肘 [50][67] 超节点掣肘?华为的解答 - 超节点设计需考虑模型需求、IDC 实践和成本等因素,在模型角度 72 卡规模以上的 Scale up 节点是较优选择,未来更大规模的超节点预计是必然选择;在 IDC 实践角度,模块化布局利于交付和运维;在成本角度,光通信等组网成本、系统复杂度和维护制约了超节点 Scale up 的规模设计 [72][77][79] - 华为 CloudMatrix 384 超节点通过两层 UB Switch 实现全互联,形成无带宽收敛的 Clos 网络拓扑,实测数据显示其对性能影响较小,该超节点算力为 NVL72 的 1.7 倍,内存为 3.6 倍,更适合未来 AI 工作负载 [82][92][95] - 华为 CM384 机柜为推理而生,针对 Prefill 和 Decode 两大阶段进行了针对性优化;深度适配 DeepSeek,机柜内资源调度灵活性强,但多机柜灵活性差;在国产 AI 芯片方案中已经具备一定性价比,体现在单算力的吞吐 [100][107][119] 产业链影响:分工细化,各环节均有增量 - 服务器产业链分工细化,AI 芯片厂商纵向整合,提升自身通信、存储、软件等能力是确定趋势,代工产业链分工可能进一步分化为板卡设计代工供应商、以及机柜代工供应商,相关标的包括海光信息、中科曙光等 [123][128] - 光通信方面,国产超节点方案带来光模块增量,预计增加 400G 或 LPO 等成本优化方案的采购,同时加速向 800G 演进,整体光模块的需求比最高可达 1:18,相关标的包括华工科技、光迅科技等 [129][139] - 铜连接方面,华为 UB-Mesh 网络架构具备降低成本、增强可靠性等特性,更长时间维度看,光通信是 Scale up 网络需求的演进方向,光电混合是当前重要架构,相关标的包括意华股份、瑞可达等 [140][144] - IDC 产业链方面,以 Cloud Matrix 为代表的超节点方案预计将增加 AIDC 需求,液冷是必要选项,相关标的包括润泽科技、奥飞数据等 [149][151] 重要公司估值 - 报告给出了海光信息、中科曙光、浪潮信息等多家公司 2024A-2027E 的归母净利润及 PE 等估值数据 [153]
GPU集群怎么连?谈谈热门的超节点
半导体行业观察· 2025-05-19 09:27
超节点服务器概念与背景 - 超节点服务器是应对AI算力需求爆炸式增长的最优解,通过高效整合海量计算单元(CPU/GPU/TPU)实现前所未有的计算密度和效率[4][6] - AI模型参数从亿级跃升至万亿级,传统服务器显存和算力无法满足需求,模型并行成为必然选择但受限于服务器间网络带宽瓶颈[9] - 超节点三大核心特征:极致计算密度(单空间最大化算力)、强大内部互联(NVLink等技术)、AI负载深度优化(软硬件协同设计)[10] 技术演进历程 - 早期追求服务器密度的尝试(如1999年谷歌"软木板服务器")与超节点有本质区别,前者侧重资源池化而非算力整合[12] - GPU并行计算能力崛起成为关键转折点,Transformer等大模型推动NVLink等高速互联技术发展[13] - 英伟达DGX/HGX系列将8GPU+NVSwitch高度集成,形成典型超节点单元[14] 行业需求驱动因素 - AI大模型遵循规模定律(Scaling Law),模型规模与训练数据量增长直接带来算力需求指数级上升[16] - 长序列处理需求提升模型性能但显存需求急剧增加,2025年斯坦福报告显示训练算力年增长率达10倍[18][20] - 传统扩展方式面临三大瓶颈:内存墙(数据供给不足)、规模墙(集群扩展收益递减)、通信墙(并行计算通信开销)[21] 技术优势与解决方案 - 构建超大带宽域(HBD)实现纵向扩展(Scale-Up),8GPU服务器内通信带宽达130TB/s[22][37] - 集中式供电方案提升效率,液冷技术使PUE优于传统风冷,长期运营成本降低[24][26] - 模块化设计优化运维,大型风扇墙和集成电源组件比传统方案节能30%以上[26][29] 关键技术挑战 - 供电系统需应对100kW+机柜功耗,电压从48V向400/800V演进以减少线路损耗[31] - 冷却系统采用冷板式/浸没式液冷应对单芯片1000W+ TDP,散热效率提升5-10倍[32] - 网络系统需平衡铜缆/光缆成本与性能,InfiniBand和RoCE成为主流互联方案[32][37] 行业技术现状 - 英伟达GB200 NVL72集成72个Blackwell GPU,采用NVLink实现36CPU+72GPU逻辑统一,定义行业标准[35][37] - 华为CloudMatrix 384通过384颗昇腾芯片全光互联实现自主可控,但功耗较高[38][41] - 供电技术向48V直流母线槽演进,液冷采用直触式冷板技术,网络倾向RoCE以太网[33][34][37] 未来技术方向 - 数据中心供电向400V/800V高压直流(HVDC)转型,减少AC-DC转换损耗[40][43] - 下一代液冷技术包括微流控冷却(芯片表面蚀刻微通道)和相变液冷(利用潜热)[45] - 共封装光学(CPO)技术将光模块集成至芯片封装,提升I/O带宽密度并降低功耗[49] 行业影响与展望 - 超节点是AI算力基础设施的集大成者,融合芯片/互联/制冷/供电等尖端技术[46] - 技术演进将催生全新系统架构,如计算/内存/存储资源池化通过光路互联[49] - 行业正从单机柜级向跨机柜级超节点发展,推动AI集群算力规模突破现有上限[22][41]