Workflow
DGX GB200 NVL72
icon
搜索文档
英伟达的光学 -NVL72、InfiniBand 横向扩展、800G 与 1.6T 的崛起
2025-08-20 22:50
公司分析 **英伟达Blackwell架构与DGX GB200 NVL72系统** * 公司在GTC上发布了Blackwell架构的8种以上SKU和配置 主要差异体现在系统层面 如外形尺寸 网络连接和功耗[3] * 重点展示了垂直集成的DGX GB200 NVL72系统 这是一个集成机架 包含72个GPU 36个CPU 18个NVSwitch 72个InfiniBand NIC用于后端网络 以及36个Bluefield 3以太网NIC用于前端网络[4] * 该系统通过5184条直连铜缆实现72个GPU的NVLink互连 带宽达900GB/s每GPU 节省了约20千瓦的收发器和重定时器功耗[7][8][10] **英伟达网络架构与策略** * 公司的DGX系统使用三种独立网络:前端以太网(每NIC对应2或4个GPU) 后端扩展网络(InfiniBand或以太网 每GPU对应1个NIC 速率400G或800G)以及后端NVLink扩展网络(连接8或72个GPU)[13] * 公司采用Clos非阻塞胖树网络架构为每个节点提供400G全带宽 该设计易于扩展 并创建叶节点和脊节点交换机之间的多条连接[18][20] * 公司推行轨道优化(rail-optimized)架构 故意将GPU连接到不同的叶交换机 以利用NVLink提供更少跳数的替代路径 这导致节点到叶脊交换机的距离更长 难以使用最大传输距离约3米的被动直连铜缆或约7米的有源电缆[26][28][29] 行业分析 **光模块需求误判与澄清** * 市场最初误认为NVLink scale up至72 GPU会降低光模块需求强度(即每个GPU集群所需的光收发器数量)[10] * 但澄清指出 对于后端扩展网络 NVL72机架仍为每个GPU配备了1个400G/800G OSFP端口 与H100的收发器与GPU比例相同 因此光模块数量并未减少 且随着GPU网络规模扩大 所需光收发器数量也会相应增加[11][14][15] * 除非只购买一个NVL72机架 否则72个OSFP端口都会安装收发器 而单机架采购并不现实 且部署灵活性要求未来用途会变化[16] **真正的光模块需求威胁:高端口数交换机** * 真正的威胁来自于公司新推出的144端口800G Quantum-X800 Q3400-RA 4U交换机 它通过使用1.6T双端口收发器 在72个OSFP笼子上实现144个800G端口 总基数达115.2T 是前代QM9700(25.6T)的4倍[34][35] * 使用144端口交换机可构建高达10368个GPU节点的集群 并仍保持2层网络拓扑 几乎是基于旧64端口交换机的2层网络节点数的5倍[36] * 在构建一个9216 GPU集群时 144端口交换机可使网络保持在2层 而使用64端口交换机则需要3层 这显著简化了网络 所需交换机数量减少70% 总收发器数量减少27%[39] * 若大量AI网络采用144端口交换机 收发器与GPU的比率将显著下降 选择更昂贵的ConnectX-8和Quantum-X800实际上会大幅减少光模块用量[45] **网络规模与光器件市场影响** * 基于Quantum-2 QM9700交换机(32个800G OSFP笼子 64个400G端口)的参考架构 构建不同规模GPU网络所需的光端口和收发器数量被详细列出 例如2048 GPU集群需要96个交换机 5120个收发器(收发器/GPU比率为2.5) 而32768 GPU集群需要2560个交换机 114688个收发器(比率3.5)[32] * 基于新的Quantum-X800交换机(72个1.6T OSFP笼子 144个800G端口)的架构也提供了详细数据 例如9216 GPU集群需要200个交换机 23616个收发器(比率2.56)[38] * 从400G向800G(NIC端口)和800G向1.6T(交换机端口)的过渡将使某些子组件的平均售价(ASP)提高 但不足以完全抵消单位需求量的下降[45]