Workflow
服务器网络架构
icon
搜索文档
被抛弃的NVL72光互联方案
傅里叶的猫· 2025-07-17 23:41
GB200服务器硬件架构与互联技术分析 核心观点 - GB200服务器采用铜缆与光缆混合互联方案,其中加速器互连(NVLink)全面转向铜缆以降低成本,而后端网络长距离连接仍依赖光纤 [13][16] - NVL36x2成为主流配置,推动有源铜缆需求激增,光学收发器厂商增量有限 [19] - 前端网络存在配置过剩现象,客户可通过降低带宽节省单系统3.5k美元成本 [2] 前端网络 - 功能定位:承担与外部互联网、集群管理工具及存储系统的数据交互,采用常规以太网协议 [1] - 带宽配置:HGX H100单GPU带宽25-50Gb/s,GB200参考设计达200Gb/s(实际需求仅50Gb/s),总带宽200-800Gb/s [2] - 客户差异:超大规模企业采用自定义NIC方案,仅甲骨文使用Bluefield-3实现网络虚拟化 [4] 后端网络 - 技术迭代:初期沿用ConnectX-7网卡(400G),2025Q2将升级至ConnectX-8(800G)搭配Quantum-X800交换机 [6][12] - 材料选择:机架间长距离(>4米)必须使用光纤,铜缆仅适用于短距连接 [6] - 成本对比:Nvidia高端Infiniband交换机成本显著高于Broadcom Tomahawk系列以太网方案 [7] 加速器互连(NVLink) - 拓扑革新:NVL72采用1层扁平拓扑(72GPU),NVL36x2分组设计(2x36GPU),NVL576采用2层胖树结构(576GPU) [15] - 铜缆优势:相比光学方案节省单机架220万美元成本,降低19.4kW功耗,5184根铜缆实现900GB/s单向带宽 [16] - 连接技术:采用Amphenol Paladin HD 224G/s连接器与SkewClear EXD Gen 2电缆,解决信号干扰问题 [17][18] 带外管理网络 - 功能特性:独立运维网络,用于OS重装和硬件状态监控,数据量极小 [20] - 成本控制:采用RJ45铜缆连接,单根成本<1美元,无需光学组件 [21] MPO光纤连接器价值分析 - 400G方案:单GPU对应MPO价值量128美元(两层架构)至192美元(三层架构) [24] - 800G升级:采用16/24芯MPO后,单GPU价值量提升至256-381美元,1.6T方案需32/48芯MPO [25][29] - 规模测算:73728个GPU的三层架构下,MPO总芯数达702万,单GPU价值381美元 [30]