Workflow
AI芯片功耗走向5000W,液冷势在必行

文章核心观点 - 人工智能芯片功耗的爆炸式增长正推动数据中心冷却技术从传统风冷向液冷转型 [2][3] - 液冷技术因具备远超空气的导热和比热能力,成为应对高功率密度AI芯片散热需求的必然选择 [3] - 行业内存在多种液冷技术路径,包括单相/两相直接芯片冷却和单相/两相浸入式冷却,未来主流标准尚未确定 [4][19] AI芯片功耗增长趋势 - 英伟达GPU功耗持续快速提升:2017年V100为300瓦,2020年A100为400瓦,2022年H100为700瓦,2024年Blackwell GPU达1200瓦 [2] - 行业预计未来一两年内单芯片功耗将超过2000瓦,并为5千瓦及以上的芯片做准备 [2] - AI应用使机架功率密度从平均8千瓦增长到100千瓦,增长一个数量级 [3] 液冷技术优势 - 水的比热约为空气的四倍,密度约为空气的800倍,同等体积吸热能力是空气的3200倍 [3] - 水的导热系数是空气的23.5倍,传热速度远快于空气 [3] - 液体冷却已成为高密度AI数据中心事实上的解决方案 [3] 单相直接芯片冷却 - 技术最成熟,冷板内循环乙二醇水混合物直接放置于最热芯片上方 [5][7] - 采用混合冷却方案,液冷解决约80%散热,传统风冷解决约20% [7] - 冷却液通过热交换器由设施用水冷却,设施用水再由冷却器或干式冷却器处理 [7] 两相直接芯片冷却 - 利用介电流体相变潜热进行冷却,液体在芯片顶部沸腾成蒸汽带走热量 [8][10] - 使用沸点低至18°C的介电流体,可通过压力调节沸点,避免电子设备短路风险 [10] - 流速约为单相冷却的五分之一,设施水温度可接受比单相高6到8度,能耗更低 [11] - 单相水冷对2000瓦芯片需每分钟注入一加仑水,导致高压力和泵送成本 [11] 单相浸入式冷却 - 将整个服务器浸入介电流体(通常是油)中,移除内置风扇 [12][14] - 所有部件由同一种液体冷却,热交换器利用设施用水循环冷却,能耗节省高达51% [14] - 需要对服务器进行兼容性改造,如更换热界面材料 [14] - 对先进高功率芯片需添加冷却板增强散热,但会增加独立冷却回路系统 [15] 两相浸入式冷却 - 服务器浸入沸腾介电流体中,液体直接在芯片上方沸腾,蒸汽在冷凝器凝结 [15][17][18] - 冷却能力是单相液体的10到100倍,因利用潜热 [17] - 设施水温度仅需比沸点低约6度(约43°C),可消除对冷却器的需求 [18] - 10年总拥有成本案例显示优势:单相直接芯片冷却4.36亿美元,单相浸入式4.91亿美元,两相浸入式4.33亿美元 [18] - 面临维护挑战,如专业液体昂贵、易蒸发,但已有设计通过蒸汽层管理和缓冲罐减少损失 [19] 行业展望 - 除非AI发展停滞,否则冷却技术需持续演进以解决热量问题 [19] - 数据中心快速变化带来大量创造力和创新,未来主导技术尚未确定 [19]