Workflow
液体冷却
icon
搜索文档
全球AI功耗正在迅速失控
半导体芯闻· 2025-09-28 17:47
文章核心观点 - 人工智能的兴起正推动数据中心机架能耗与功率密度急剧上升,预计到2030年,单个AI机架的能耗将高达1MW,是传统机架的20至30倍 [1][2][4] - 数据中心行业的战略重点已转向电力输送和冷却技术,以应对AI带来的高密度计算挑战,冷却从支持性角色转变为行业核心议题 [3][5][6] - 行业正通过紧密合作、技术创新(如高压直流供电、液体冷却、微流体技术)来应对功率和散热挑战,这些因素将决定未来数字基础设施的形态 [5][6] AI机架能耗与功率密度趋势 - 到2030年,以AI为中心的机架用电量可能达到1MW,这一规模曾经只有整个设施才能达到 [2] - 预计同期数据中心机架的平均功率将稳步上升至30-50kW,反映出计算密度的显著增加 [2] - 单个AI机架所消耗的能源是通用机架的20到30倍 [3] 电力输送与冷却基础设施的演变 - 冷却已成为数据中心行业的核心议题,这得益于计算密度的增加、AI工作负载的增加以及对液体冷却等方法兴趣的日益浓厚 [3] - 行业正在从传统的低压交流电转向高压直流电(例如 +/-400V),以减少功率损耗和电缆尺寸 [5] - 冷却系统由设施中央冷却分配单元负责管理流向机架歧管的液体,液体被输送到直接安装在服务器最热组件上的冷却板 [5] 前沿冷却技术创新 - 微软测试的微流体技术可在芯片背面蚀刻微小凹槽,使冷却液直接流过硅片,早期试验中其散热效率比冷板高出三倍,并将GPU温升降低65% [5] - 通过将微流体设计与绘制芯片热点的人工智能相结合,能够更精确地引导冷却剂 [5] 行业竞争格局与合作 - 尽管超大规模运营商可能主导AI数据中心领域,但小型运营商仍有机会通过敏捷性和创新性在交付瓶颈中创造价值 [6] - 制造商、工程师和最终用户的合作比以往更加紧密,在实验室和实际部署中共同进行实验以解决复杂的冷却挑战 [5]
NVIDIA Rubin NVL576 Kyber 中板,非常巨大
半导体行业观察· 2025-03-29 09:44
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 serverthehome ,谢谢。 在争夺下一代 AI 服务器主导地位的斗争中,NVIDIA 拥有秘密武器。对于更高密度的 NVIDIA Rubin NVL576 一代,NVIDIA 计划放弃电缆盒并改用中板设计。 在 NVIDIA GTC 2025 上,我们看到了下一代 NVIDIA Rubin NVL576 机架,代号为"Kyber"。如 果您在我们的报道中看到过,Kyber 机架将风扇和电源(目前)移出机架以增加计算密度。这是计 算刀片机箱的照片。您会注意到,仅此机箱中就有 18 个计算刀片。 后面有 NVLink 开关。 内部连接方面,NVIDIA 展示了一种新的中板设计。连接器共有 18 列和 4 行。 这里有许多值得注意的地方,但其中最重要的一点是,通过对整个机架进行液体冷却,NVIDIA 能 够构建这种中板而无需考虑气流。中板并不新鲜,它们已在刀片服务器等设备中使用多年。这些中 板通常必须牺牲密度来获得用于气流的切口。 另一个重大影响是它移除了连接 NVL72 中的 NVLink 交换机和计算刀片的电缆盒。 这是未来两年内架构的一个 ...