拥有20万GPU的集群建好了，只用了122天

核心观点 - xAI的孟菲斯超级集群一期项目已满负荷运营，电力供应达150兆瓦，另有150兆瓦电池备用 [1] - 该超级计算机搭载10万块NVIDIA H100 GPU，仅用19天完成部署，速度远超行业常规 [1][11] - 计划到2025年2月将GPU数量翻倍至20万块，并最终扩至100万块 [3][7] - 采用液冷系统和高效网络架构，专为AI训练优化 [9][10][13] - 主要用于训练Grok大型语言模型，并探索自动驾驶、机器人等AI应用 [13] 电力供应 - 一期工程从TVA和MLGW获得150兆瓦电力，60%来自可再生能源 [1][2] - 二期工程将新增150兆瓦电力，总电力需求达300兆瓦，可为30万户家庭供电 [2] - 初期使用35台天然气涡轮发电机作为临时电源，每台输出2.5兆瓦 [1] 技术架构 - 采用NVIDIA H100和H200 GPU组合，H200性能比H100提升20倍 [7][8] - 使用Supermicro 4U液冷服务器，每台含8块GPU，每机架64块GPU [9][10] - 网络采用NVIDIA Spectrum-X平台，每GPU配备400GbE网卡，总带宽达3.6TB [10] - 部署200个阵列，每个阵列512个GPU [10] 发展规划 - 计划通过中东主权财富基金筹集60亿美元资金用于扩建 [7][15] - 目标挑战OpenAI的GPT-4和Google的Bard等主流AI系统 [8] - 探索AI在材料科学、能源节约和新药研发等科学领域的应用 [13] 行业影响 - 部署速度创纪录，引发数据中心/AI行业广泛关注 [6] - 冷却技术成为关键挑战，多家供应商开发专用解决方案 [14] - 与特斯拉的Cortex AI超级集群形成互补，后者专注自动驾驶 [13] - 可能改变AI行业竞争格局，加速技术突破 [15]