NVIDIA DGX H100

搜索文档
拆解英伟达1.6T的网络模块
半导体行业观察· 2025-07-23 08:53
英伟达DGX H100网络架构升级 - 核心架构从PCIe Gen4升级至PCIe Gen5 实现从200Gbps到400Gbps网络带宽跃迁 采用名为"Cedar"的定制模块替代传统PCIe卡 [2] - 每个Cedar模块集成4个ConnectX-7控制器 单个控制器提供400Gbps带宽 两个模块组合实现3.2Tbps结构带宽 [4] - 网络控制器采用OSFP/QSFP接口形态 支持NDR/NDR200/HDR等多种速率标准 部分型号支持PCle Gen5 x16主机接口 [5][6] Cedar模块技术细节 - 模块采用水平布局设计 配备专用散热系统 优化气流路径覆盖CPU和内存区域 支持DAC/有源光缆/标准光纤多种连接方式 [7] - 底部采用定制连接器 类似SXM GPU和Grace芯片的接口设计 相比8个独立PCIe网卡显著节省空间 [31][33] - 集成带外管理接口(OOB) 提供低性能辅助连接 模块顶部设置两个电缆接头用于跨机箱连接 [24][26][27] 系统级设计创新 - 配套使用两个BlueField-3控制器 专门处理存储和用户平面任务 与Cedar模块的计算平面形成分工 [10] - 模块化设计提升液冷效率 水平排列允许安装单一液冷块 减少冷却组件数量 [35] - 网络团队将Cedar模块技术开放给合作伙伴 但当前多数厂商仍采用传统PCIe ConnectX-7方案 [12][13] 硬件配置与未来演进 - DGX H100主板采用x86架构CPU 候选为Intel Sapphire Rapids或AMD Genoa 排除Arm架构Grace芯片 [9] - HGX B300 NVL16平台问世后 此类定制模块的实用性可能降低 [36] - 实际模块展示显示 每个ConnectX-7 NIC可实现400Gbps吞吐量 四芯片组合达到1.6Tbps容量 [20][22]