AI数据中心的下一道障碍：冷却、水和工人

文章核心观点 AI算力扩张导致数据中心服务器功率密度急剧攀升，冷却系统的重要性已与电力供应并列，成为制约AI数据中心落地速度的核心变量之一[1] 同时，水资源消耗和劳动力短缺问题正重塑数据中心供应链的投资机会与风险格局[3] 冷却系统的重要性与成本构成 - AI服务器机架功率密度急剧攀升，从2020年的10-25千瓦/机架跃升至Blackwell架构的120-150千瓦/机架，预计2027年后的Rubin Ultra架构将突破600千瓦/机架[1] 冷却系统是制约AI数据中心落地速度的核心变量之一[1] - 冷却系统约占数据中心建筑外壳资本支出的10%至15%，且这一比例仍在上升[3][6] 随着液冷架构普及，该占比预计将持续扩大[6] - 数据中心服务器本质上是“电力锅炉”，几乎所有电能最终转化为废热，冷却失效将导致性能下降、设备损毁乃至业务中断[4] 水资源消耗的复杂性 - 数据中心水消耗问题复杂，远超直接冷却用水[13] 美国数据中心直接冷却水耗从2014年约210亿升增至2023年约660亿升，年均增速约12%至13%[14] 若容量持续扩张，到2028年可能增至每年1450亿至2750亿升[15] - 直接冷却水耗仅是冰山一角，更大耗水来源于支撑数据中心运营的发电环节[16] 2023年美国数据中心约176太瓦时的电力需求对应的间接水耗接近8000亿升[16] 国际能源署估计全球数据中心综合冷却、发电及半导体供应链的年取水量约为5.2万亿升[16] - 不同发电技术耗水强度差异显著：传统煤电厂每千瓦时取水量约70升，部分老式核电站超过100升；现代天然气联合循环电厂约10至12升；风能和太阳能光伏几乎不需冷却取水[19] 主要云服务商的冷却策略差异 - 微软：已启用以风冷冷水机为核心的零蒸发冷却数据中心设计，目标是2030年前实现全球运营水资源“正效益”，同时将水使用效率较2022年基准改善40%[23] 2024财年水资源提取量同比下降约20%至约104亿升，水使用效率为0.27升/千瓦时，较2022年基准提升18%[24] - Meta：最新一代AI数据中心以直接液冷结合干式冷却器为核心，正常冷却过程几乎不消耗水资源[25] 2024年电力需求增长约21%，其取水量仅上升约7%至56亿升，水使用效率为0.19升/千瓦时[25] - 谷歌：巴克莱测算其有效水使用效率超过约1.3升/千瓦时，显著高于同行[26] 2024年数据中心取水量约420亿升，同比增长约27%，与其电力需求增速同步[27] 谷歌坚持在低水资源风险地区部署蒸发冷却以降低电耗，但在高水资源压力地区采用风冷设计[28][29] - 亚马逊：全球水使用效率2024年同比改善17%至0.15升/千瓦时[30] 亚马逊采用区域差异化策略，在高水资源风险地区避免水冷设计[31] 市场认知误区澄清 - 液冷≠用水多：液冷系统通常在封闭回路中运行，正常运营期间不产生净消耗[10] 蒸发冷却才是直接耗水的主因[12] 液体冷却可通过提高冷却液供水温度，减少乃至消除对蒸发冷却的依赖，从而降低直接水耗[11] - 浸没冷却并非终局：直接芯片液冷已成为超大规模部署标准；浸没冷却因运维复杂、OEM生态支持不足、两相系统面临PFAS监管压力等问题，仍属小众方案[32] - 冷水机需求未被颠覆：英伟达CEO关于“45°C供液温度无需冷水机”的表态被市场过度解读[33] 在炎热气候、季节性峰值及冗余需求下，冷水机仍不可或缺[34] 随着运营商从湿冷塔转向风冷方案，风冷冷水机需求有望进一步增长[34] LG Electronics预测数据中心风冷及液冷冷水机市场规模将从2026年的16亿美元扩张至2030年的127亿美元[35] - 余热利用难以规模化：受温度不匹配、市政协调复杂及资本投入高等制约，余热回用主要在北欧区域供热体系中具备条件，不会成为冷却系统设计的主流考量[36] 劳动力短缺的影响与风险 - 冷却系统的安装是数据中心各子系统中劳动密集程度最高的环节，高度依赖水管工、管道安装工、暖通空调技术员、焊工、电气工程师及调试工程师等多工种协同作业[37] - Crusoe公司披露的数据显示，数据中心开发的劳动力成本约为每兆瓦470万美元，约占含自备电厂总成本的25%[38] 其星际之门工地日均工人数量约9000人，另一处Claude项目的工人数量达3500人[39] - 劳动力短缺带来多重风险与机会：一是进度风险，人员不足可能导致冷却系统安装、调试延误；二是成本通胀，激烈的工种竞争正推高工资水平及分包商报价；三是技术取舍，在劳动力受限情况下可能优先选择更为简单的风冷设计；四是模块化解决方案的机遇，预制化冷却单元可减少现场专业技工需求[40]