集群规模与技术配置 - 俄亥俄州部署的NVIDIA HGX B200集群采用风冷技术,由Supermicro服务器组成,耗资数亿美元,GPU数量达数千颗[2][5] - 每个Supermicro平台机架配备32个GPU,每排8个机架共256个GPU,采用冷热通道隔离设计[5] - 集群部署在Cologix的36MW设施中,并非该设施唯一集群,规模远超传统超级计算机[9][95] 服务器硬件架构 - NVIDIA HGX B200采用10U风冷设计,8 GPU基板下方配置主板,散热器高度显著增加以支持高功率GPU[16][17][21] - 系统集成NVIDIA Bluefield-3 DPU提供400Gbps网络带宽,配备10个PCIe Gen5 NVMe驱动器托架和钛金级电源(效率96%)[22][23][25] - 每台服务器配置6个5250W电源,总功率超30kW,采用3+3冗余设计,支持8块400GbE NDR网卡[25][26][27] 网络架构与性能 - 东西向网络采用NVIDIA Quantum-2 400Gbps互连,支持SHARP网络内计算技术,每GPU服务器拥有13个网络连接[30][33][37] - 单台GPU服务器网络容量达3.6Tbps,包含8个400Gbps ConnectX-7网卡和2个200Gbps DPU[37] - Arista Networks 7060DX5-64S交换机提供64端口400GbE连接,采用QSFP-DD光模块[39] 存储与配套设施 - 集群采用VAST Data高速存储解决方案,配备高容量SSD支持数据迁移和长期保存[52][54] - 设施配备1.6MW电池组电源箱,通过母线槽分配电力,支持快速电源类型切换[64][67][72] - 风冷系统通过蓝色网格热交换器循环热量,冷通道空气经GPU散热器后进入液体回路[57][59][61] 运营模式与行业趋势 - Lambda提供一键式AI集群租赁服务,客户可直接用信用卡配置而无需销售流程,支持多租户架构[8][37][90] - 集群包含大量传统CPU计算节点(1U/2U服务器)用于集群管理和协调服务[76][78][79] - 行业加速向液冷转型,NVIDIA GB200 NVL72液冷机架已开始部署,提供更大纵向扩展域[11][88][93] 供应链与部署细节 - 集群建设涉及光纤布线、PDU、线缆管理等数百种组件,细微差异(如光纤长度)可能延迟上线[83][85][86] - 网络机架采用高架线槽承载光纤,分接盒设计支持快速电源适配,便于未来升级[48][70][72] - 当前部署速度下,未通电的GPU服务器如同"停机场的飞机",直接影响收入生成[87]
探秘NVIDIA HGX B200集群,超多图