探秘NVIDIA HGX B200集群，超多图

集群规模与技术配置 - 俄亥俄州部署的NVIDIA HGX B200集群采用风冷技术，由Supermicro服务器组成，耗资数亿美元，GPU数量达数千颗[2][5] - 每个Supermicro平台机架配备32个GPU，每排8个机架共256个GPU，采用冷热通道隔离设计[5] - 集群部署在Cologix的36MW设施中，并非该设施唯一集群，规模远超传统超级计算机[9][95] 服务器硬件架构 - NVIDIA HGX B200采用10U风冷设计，8 GPU基板下方配置主板，散热器高度显著增加以支持高功率GPU[16][17][21] - 系统集成NVIDIA Bluefield-3 DPU提供400Gbps网络带宽，配备10个PCIe Gen5 NVMe驱动器托架和钛金级电源（效率96%）[22][23][25] - 每台服务器配置6个5250W电源，总功率超30kW，采用3+3冗余设计，支持8块400GbE NDR网卡[25][26][27] 网络架构与性能 - 东西向网络采用NVIDIA Quantum-2 400Gbps互连，支持SHARP网络内计算技术，每GPU服务器拥有13个网络连接[30][33][37] - 单台GPU服务器网络容量达3.6Tbps，包含8个400Gbps ConnectX-7网卡和2个200Gbps DPU[37] - Arista Networks 7060DX5-64S交换机提供64端口400GbE连接，采用QSFP-DD光模块[39] 存储与配套设施 - 集群采用VAST Data高速存储解决方案，配备高容量SSD支持数据迁移和长期保存[52][54] - 设施配备1.6MW电池组电源箱，通过母线槽分配电力，支持快速电源类型切换[64][67][72] - 风冷系统通过蓝色网格热交换器循环热量，冷通道空气经GPU散热器后进入液体回路[57][59][61] 运营模式与行业趋势 - Lambda提供一键式AI集群租赁服务，客户可直接用信用卡配置而无需销售流程，支持多租户架构[8][37][90] - 集群包含大量传统CPU计算节点（1U/2U服务器）用于集群管理和协调服务[76][78][79] - 行业加速向液冷转型，NVIDIA GB200 NVL72液冷机架已开始部署，提供更大纵向扩展域[11][88][93] 供应链与部署细节 - 集群建设涉及光纤布线、PDU、线缆管理等数百种组件，细微差异（如光纤长度）可能延迟上线[83][85][86] - 网络机架采用高架线槽承载光纤，分接盒设计支持快速电源适配，便于未来升级[48][70][72] - 当前部署速度下，未通电的GPU服务器如同"停机场的飞机"，直接影响收入生成[87]