Workflow
AI超级工厂
icon
搜索文档
微软第一座“AI超级工厂”投入运营:将两座数据中心连接,构建分布式网络
美股IPO· 2025-11-13 11:39
微软AI基础设施战略 - 微软首座“AI超级工厂”正式投入运营,通过专用高速网络连接亚特兰大与威斯康星州的数据中心,构建跨州协同的分布式计算集群 [1][3] - 此举标志着AI基础设施从独立站点建设正式迈向网络化协同新时代,旨在以前所未有的规模和速度加速AI模型训练 [1][3] - 该战略是公司应对爆炸性算力需求、在激烈市场竞争中巩固领导地位的关键一步 [3][4] 分布式网络架构 - “AI超级工厂”核心是将多个地理上分散的数据中心融合成一个虚拟的单一超级计算机,与运行数百万独立应用程序的传统数据中心设计理念截然不同 [5] - 分布式网络整合数十万个最先进的GPU、EB级存储空间和数百万个CPU核心,设计目标是支持参数规模达数万亿级别的未来AI模型训练 [5] - 随着AI训练流程日益复杂,涵盖预训练、微调、强化学习和评估等多个阶段,跨站点协同能力变得至关重要 [5] 新一代数据中心技术特征 - 亚特兰大Fairwater设施占地85英亩,建筑面积超过100万平方英尺,设计完全为AI工作负载优化 [6] - 采用高密度双层建筑设计,在更小物理空间内容纳更多GPU以缩短内部通信延迟 [7] - 部署英伟达GB200 NVL72机架规模系统,可扩展至数十万个英伟达Blackwell架构GPU [8] - 设计复杂闭环液体冷却系统应对GPU高热量,几乎不消耗水资源,初次注水量仅相当于20个美国家庭一年用水量 [8] - 通过高速网络内部紧密连接所有GPU,确保信息在芯片间快速流通 [8] 广域网连接与算力分配 - 微软部署12万英里专用光纤电缆构建AI广域网,使数据能以接近光速无拥堵传输 [9] - 跨州建设而非集中算力,主要出于土地和电力供应考量,将电力需求分散以避免对单一电网或社区造成过度负担 [9] - 随着模型规模增长,训练所需算力已超出单个数据中心承载极限,网络需确保所有GPU持续忙碌 [9] 行业竞争与资本投入 - 科技巨头间AI军备竞赛不断升温,微软计划未来两年内将其数据中心总面积扩大一倍 [3] - 微软在刚过去财季资本支出超过340亿美元,并预计未来一年继续增加投资 [4] - 整个行业科技公司今年AI相关投资总额预计将达到4000亿美元 [4] - 主要竞争对手亚马逊在印第安纳州启动占地1200英亩的Project Rainier数据中心集群,预计消耗2.2吉瓦电力 [10] - Meta Platforms、甲骨文等公司公布庞大建设计划,AI初创公司Anthropic计划在美国投资500亿美元用于计算基础设施 [10] 客户与服务范围 - 新的“AI超级工厂”网络将支持OpenAI、微软自身AI超级智能团队及Copilot等核心业务 [3] - 同时为法国Mistral AI和埃隆·马斯克的xAI等关键客户提供服务,凸显其在AI基础设施领域的核心地位 [3]