事件概述 - 芝加哥商业交易所集团交易平台因数据中心冷却系统故障中断数小时 影响横跨股票、外汇、债券和大宗商品的数万亿美元合约 [1] - 事件直接原因是CME集团位于伊利诺伊州奥罗拉的数据中心一个冷水机组发生故障 波及多个冷却单元 [1][9] - 该数据中心由私募股权公司KKR & Co 和 Global Infrastructure Partners旗下的运营商CyrusOne所有 [1] 数据中心散热问题 - 数据中心每平方英尺能耗是普通办公楼的50倍 大部分能耗最终以废热形式散发 [5] - 数据中心是装满服务器的建筑 服务器由协同工作的芯片堆栈组成 用于处理和存储数据 [2] - 处理能力被称为"算力" 已成为AI公司训练模型所必需的关键商品 [3] 冷却技术与挑战 - 传统上服务器采用冷空气冷却 工作原理类似家用空调 [6] - 自2022年左右起 因AI数据中心产生更多热量 液体冷却系统变得越来越普遍 [6] - 液体冷却方式包括将冷液通过管道送至芯片散热板 或将服务器浸入冷却液容器 效率高于空气但安装复杂且成本昂贵 [6] - 热量最终传递至冷却水循环系统 由冷却塔或工业冷水机组将热量释放到外部环境 此过程消耗大量水资源 [6] 过热后果与行业影响 - 数据中心过热可能导致数据丢失 损坏昂贵芯片 并造成客户服务中断 [8] - 近期多家数字基础设施提供商出现类似技术故障 例如Cloudflare Inc中断导致从社交平台X到ChatGPT等多个网站无法访问 亚马逊云服务、CrowdStrike和微软也曾出现类似问题 [8] - 冷却系统资本支出通常最高可占数据中心项目总投资的15% [1] CME事件技术细节 - CyrusOne奥罗拉园区使用风冷式冷水机组 并在气温低于30华氏度时利用自然冷空气或水进行冷却 [9] - 事件发生时奥罗拉当地气温约为28华氏度 [9] - CyrusOne网站声称其奥罗拉设施拥有额外冷却单元以应对风冷式冷水机组故障 但冗余系统在此次事件中的作用尚不清楚 [9]
AI时代的致命隐患,芝商所数据中心宕机,揭示冷却系统隐忧