NVIDIA HGX B200

搜索文档
探秘NVIDIA HGX B200集群,超多图
半导体行业观察· 2025-08-15 09:19
集群规模与技术配置 - 俄亥俄州部署的NVIDIA HGX B200集群采用风冷技术,由Supermicro服务器组成,耗资数亿美元,GPU数量达数千颗[2][5] - 每个Supermicro平台机架配备32个GPU,每排8个机架共256个GPU,采用冷热通道隔离设计[5] - 集群部署在Cologix的36MW设施中,并非该设施唯一集群,规模远超传统超级计算机[9][95] 服务器硬件架构 - NVIDIA HGX B200采用10U风冷设计,8 GPU基板下方配置主板,散热器高度显著增加以支持高功率GPU[16][17][21] - 系统集成NVIDIA Bluefield-3 DPU提供400Gbps网络带宽,配备10个PCIe Gen5 NVMe驱动器托架和钛金级电源(效率96%)[22][23][25] - 每台服务器配置6个5250W电源,总功率超30kW,采用3+3冗余设计,支持8块400GbE NDR网卡[25][26][27] 网络架构与性能 - 东西向网络采用NVIDIA Quantum-2 400Gbps互连,支持SHARP网络内计算技术,每GPU服务器拥有13个网络连接[30][33][37] - 单台GPU服务器网络容量达3.6Tbps,包含8个400Gbps ConnectX-7网卡和2个200Gbps DPU[37] - Arista Networks 7060DX5-64S交换机提供64端口400GbE连接,采用QSFP-DD光模块[39] 存储与配套设施 - 集群采用VAST Data高速存储解决方案,配备高容量SSD支持数据迁移和长期保存[52][54] - 设施配备1.6MW电池组电源箱,通过母线槽分配电力,支持快速电源类型切换[64][67][72] - 风冷系统通过蓝色网格热交换器循环热量,冷通道空气经GPU散热器后进入液体回路[57][59][61] 运营模式与行业趋势 - Lambda提供一键式AI集群租赁服务,客户可直接用信用卡配置而无需销售流程,支持多租户架构[8][37][90] - 集群包含大量传统CPU计算节点(1U/2U服务器)用于集群管理和协调服务[76][78][79] - 行业加速向液冷转型,NVIDIA GB200 NVL72液冷机架已开始部署,提供更大纵向扩展域[11][88][93] 供应链与部署细节 - 集群建设涉及光纤布线、PDU、线缆管理等数百种组件,细微差异(如光纤长度)可能延迟上线[83][85][86] - 网络机架采用高架线槽承载光纤,分接盒设计支持快速电源适配,便于未来升级[48][70][72] - 当前部署速度下,未通电的GPU服务器如同"停机场的飞机",直接影响收入生成[87]
CoreWeave Becomes First Hyperscaler to Deploy NVIDIA GB300 NVL72 Platform
Prnewswire· 2025-07-04 00:14
文章核心观点 CoreWeave作为AI云服务提供商率先为客户部署最新NVIDIA GB300 NVL72系统并计划全球大规模扩展部署,持续在AI基础设施领域保持领先 [1][5] 分组1:GB300 NVL72系统情况 - NVIDIA GB300 NVL72在AI推理和智能体工作负载性能上有重大飞跃,用户响应速度最高提升10倍,每瓦吞吐量提高5倍,推理模型推理输出增加50倍 [2] 分组2:CoreWeave部署情况 - CoreWeave是首个为客户部署NVIDIA GB300 NVL72系统的AI云服务提供商,计划全球大规模扩展部署 [1] - CoreWeave与Dell、Switch和Vertiv合作构建GB300 NVL72系统初始部署,将最新NVIDIA GPU引入其AI云平台 [3] - GB300 NVL72部署与CoreWeave云原生软件栈紧密集成,硬件级数据和集群健康事件通过其收购的Weights & Biases开发者平台集成 [4] 分组3:CoreWeave过往成就 - CoreWeave此前率先提供NVIDIA H200 GPU,是首个让NVIDIA GB200 NVL72系统广泛可用的AI云服务提供商,此次GB300 NVL72初始部署扩展了其现有Blackwell机队 [5] - 2025年6月CoreWeave与NVIDIA和IBM合作,使用近2500个NVIDIA GB200 Grace Blackwell超级芯片提交最大规模MLPerf® Training v5.0基准测试,在最复杂模型Llama 3.1 405B上27.3分钟取得突破结果 [6] - CoreWeave是唯一获SemiAnalysis的GPU Cloud ClusterMAX™评级系统最高白金评级的超大规模云服务提供商 [6] 分组4:CoreWeave公司介绍 - CoreWeave是AI超大规模云服务提供商,提供前沿软件驱动的云平台,为企业和领先AI实验室提供加速计算云解决方案,自2017年在美欧运营数据中心,2024年入选TIME100最具影响力公司和福布斯云100榜单 [7]
Micron Innovates From the Data Center to the Edge With NVIDIA
Globenewswire· 2025-03-19 04:23
文章核心观点 - 美光科技作为领先的内存和存储解决方案提供商,凭借其高性能产品推动AI发展,巩固行业领先地位 [1][3][12] 分组1:公司产品发布与合作 - 美光宣布成为全球首家且唯一一家为数据中心AI服务器同时供应HBM3E和SOCAMM产品的内存公司,拓展其在数据中心低功耗DDR设计和交付方面的行业领先地位 [1] - 美光与英伟达合作开发SOCAMM模块化LPDDR5X内存解决方案,支持英伟达GB300 Grace Blackwell Ultra超级芯片,其HBM3E产品也被应用于英伟达多个平台 [2] 分组2:公司产品展示 - 美光将在GTC 2025展示完整的AI内存和存储产品组合,涵盖HBM3E、LPDDR5X SOCAMMs、GDDR7、DDR5 RDIMMs和MRDIMMs等,还有数据中心SSD、汽车和工业产品 [3] - 美光将于3月17 - 21日在GTC展位541展示其完整的数据中心内存和存储产品组合 [9] 分组3:产品优势与特点 SOCAMM - 已实现量产,能加速数据处理,具备高性能、高功率效率和增强的可维护性,满足不断增长的AI工作负载对大容量内存的需求 [4] - 是全球最快、最小、功耗最低且容量最高的模块化内存解决方案,能让数据中心在相同计算容量下拥有更好的带宽、功耗和扩展能力 [5] - 相比RDIMMs,相同容量下带宽高2.5倍以上,尺寸仅为行业标准RDIMM的三分之一,功耗为标准DDR5 RDIMMs的三分之一,可提供128GB内存模块,模块化设计和堆叠技术提高可维护性,适用于数据中心 [10] HBM - 美光的HBM3E 12H 36GB在相同立方体外形尺寸下比HBM3E 8H 24GB容量增加50%,与竞品的HBM3E 8H 24GB相比,功耗降低20%,内存容量提高50% [6] - 美光计划推出的HBM4解决方案预计比HBM3E性能提升超50% [7] 存储产品 - 美光有成熟的存储产品组合,为AI工作负载提供优化的SSD,与生态系统合作伙伴紧密合作确保互操作性和无缝客户体验 [8] - 高性能的Micron 9550 NVMe和Micron 7450 NVMe SSD被列入GB200 NVL72推荐供应商名单 [11] - 美光的PCIe Gen6 SSD在与领先PCIe开关和重定时器供应商的互操作性测试中展示了超27GB/s的带宽 [11] - Micron 61.44TB 6550 ION NVMe SSD是前沿AI集群百亿亿次存储解决方案的首选,每机架可提供超44PB存储,每驱动器14GB/s和200万IOPS,功耗20瓦 [11] - 美光LPDDR5X集成在英伟达DRIVE AGX Orin平台上,可提高处理性能和带宽,降低功耗 [11] - 美光利用1β DRAM节点的LPDDR5X内存满足汽车和工业要求,速度高达9.6 Gbps,容量从32Gb增加到128Gb,支持-40摄氏度至125摄氏度的工作环境 [11]