Workflow
拥有20万GPU的集群建好了,只用了122天

核心观点 - xAI的孟菲斯超级集群一期项目已满负荷运营,电力供应达150兆瓦,另有150兆瓦电池备用 [1] - 该超级计算机搭载10万块NVIDIA H100 GPU,仅用19天完成部署,速度远超行业常规 [1][11] - 计划到2025年2月将GPU数量翻倍至20万块,并最终扩至100万块 [3][7] - 采用液冷系统和高效网络架构,专为AI训练优化 [9][10][13] - 主要用于训练Grok大型语言模型,并探索自动驾驶、机器人等AI应用 [13] 电力供应 - 一期工程从TVA和MLGW获得150兆瓦电力,60%来自可再生能源 [1][2] - 二期工程将新增150兆瓦电力,总电力需求达300兆瓦,可为30万户家庭供电 [2] - 初期使用35台天然气涡轮发电机作为临时电源,每台输出2.5兆瓦 [1] 技术架构 - 采用NVIDIA H100和H200 GPU组合,H200性能比H100提升20倍 [7][8] - 使用Supermicro 4U液冷服务器,每台含8块GPU,每机架64块GPU [9][10] - 网络采用NVIDIA Spectrum-X平台,每GPU配备400GbE网卡,总带宽达3.6TB [10] - 部署200个阵列,每个阵列512个GPU [10] 发展规划 - 计划通过中东主权财富基金筹集60亿美元资金用于扩建 [7][15] - 目标挑战OpenAI的GPT-4和Google的Bard等主流AI系统 [8] - 探索AI在材料科学、能源节约和新药研发等科学领域的应用 [13] 行业影响 - 部署速度创纪录,引发数据中心/AI行业广泛关注 [6] - 冷却技术成为关键挑战,多家供应商开发专用解决方案 [14] - 与特斯拉的Cortex AI超级集群形成互补,后者专注自动驾驶 [13] - 可能改变AI行业竞争格局,加速技术突破 [15]