公司AI基础设施战略 - 微软正在构建一个连接不同州份数据中心的分布式“AI超级工厂”,旨在以前所未有的规模和速度加速AI模型训练,标志着行业竞争从单点建设转向网络化布局 [1] - 位于亚特兰大的新一代AI数据中心已于今年10月投入运营,这是“Fairwater”系列中的第二个设施,并通过专用高速网络与威斯康星州的数据中心连接,形成首个跨州协作的AI计算集群,可将复杂AI训练任务从数月缩短至数周 [1] - 公司计划在未来两年内将其数据中心总面积扩大一倍,以应对激增的算力需求 [1] 资本开支与行业投资 - 微软在刚刚过去的财季中资本支出超过340亿美元,并预计未来一年将继续增加投资 [2] - 整个科技行业今年的AI相关投资总额预计将达到4000亿美元 [2] “AI超级工厂”技术架构 - “AI超级工厂”核心在于将多个地理上分散的数据中心融合成一个虚拟的单一超级计算机,在数百万个硬件上运行一个复杂的作业,而非传统数据中心为多个客户运行数百万个独立应用程序 [3] - 分布式网络将整合数十万个最先进的GPU、EB级的存储空间和数百万个CPU核心,设计目标是支持参数规模达数万亿级别的未来AI模型训练 [3] - 随着AI训练流程日益复杂,涵盖预训练、微调、强化学习和评估等多个阶段,跨站点的协同能力变得至关重要 [3] 新一代数据中心设计 - “Fairwater”系列数据中心从零开始设计,位于亚特兰大的设施占地85英亩,建筑面积超过100万平方英尺,完全为AI工作负载优化 [4] - 采用高密度双层建筑设计,以便在更小空间内容纳更多GPU,缩短内部通信延迟 [4] - 部署英伟达GB200 NVL72机架规模系统,可扩展至数十万个英伟达Blackwell架构GPU [4] - 设计了复杂的闭环液体冷却系统,几乎不消耗水资源,其初次注水量仅相当于20个美国家庭一年的用水量 [4] AI广域网与算力分配 - 微软部署了12万英里的专用光纤电缆构建AI广域网(AI WAN),作为专供AI流量的“高速公路”,使数据能以接近光速的速度无拥堵传输 [6] - 跨州建设而非集中一处,主要是出于土地和电力供应的考量,将电力需求分散到不同地区可避免对任何单一电网或社区造成过度负担 [6] - 随着模型规模增长,训练所需算力已超出单个数据中心承载极限,Fairwater网络的目标是让所有GPU始终保持忙碌状态,避免瓶颈导致训练停滞 [6] 行业竞争格局 - 主要竞争对手亚马逊在印第安纳州启动了占地1200英亩的Project Rainier数据中心集群,预计将消耗2.2吉瓦的电力 [7] - Meta Platforms、甲骨文等公司也公布了庞大的建设计划,AI初创公司Anthropic则宣布计划在美国投资500亿美元用于计算基础设施 [7]
微软第一座“AI超级工厂”投入运营:将两座数据中心连接,构建分布式网络