马斯克最大算力中心建成了:全球首个GW级超算集群,再创世界纪录
量子位·2026-01-18 13:29

全球首个GW级超算集群Colossus 2投入运行 - 全球首个功率达到1GW的超算集群Colossus 2已正式投入运行,并计划于2024年4月升级至1.5GW,最终总装机容量目标为2GW [1][2][12] - 该集群由xAI公司独立建设,不依赖亚马逊、微软等科技巨头,从无到有的建设速度极快,前代集群Colossus 1仅用122天建成,Colossus 2的建设耗时不到一年 [6][7][8][10] - 集群配备约20万颗英伟达H100/H200 GPU和约3万颗英伟达GB200 NVL72,规划彻底完工后将内置55.5万张GPU,远超Meta的15万张、微软的10万张以及谷歌的分布式基础设施 [9][13] Colossus 2的规模与影响 - 1GW的功率可为约75万户家庭供电,相当于高峰时期的旧金山,与一座核电站的功率相当,2GW的最终容量将与美国大多数主要城市的用电量相当 [11][12] - 该集群庞大的计算资源将全部用于训练xAI的下一代大模型Grok 5,预计其参数将达到约6万亿,是Grok 4的两倍以上 [14][15] - 随着xAI完成200亿美元的E轮融资,Grok 5的研发筹码增加,意味着更大的模型参数、更快的训练与迭代速度,xAI在算力基础设施上已领先于为2027年发愁的OpenAI [18][19] AI算力竞赛对电网的冲击 - 数据中心建设热潮正导致电力需求激增,美国非营利电网运营商PJM预计未来10年电力需求将以年均4.8%的速度增长,这对一个需求多年变化不大的系统而言相当罕见 [27][28] - 电力供给增速缓慢,新建电厂速度跟不上老电厂退役速度,电网容量面临饱和,供需偏差可能导致电网频率波动并损坏关键基础设施 [29][30] - 为避免风险,PJM可能在极端天气期间对覆盖区域内(美国13个州)的6700万居民实施轮流停电,作为维持电网平衡的卸压手段 [5][22][23][31] 行业应对与xAI的缓解措施 - PJM曾提议数据中心在高峰时段主动降低用电量或改从其他渠道获取电力,但遭到亚马逊、谷歌、微软等公司的反对,认为这是对数据中心的歧视 [33][34] - xAI的Colossus 2位于美国中南部,不在PJM电网覆盖范围内,并且公司部署了168个特斯拉Megapack电池储能系统,旨在用电高峰期提供电力缓冲,以尽量减少对当地电网的冲击和周边居民遭遇停电的风险 [35]

马斯克最大算力中心建成了:全球首个GW级超算集群,再创世界纪录 - Reportify