Workflow
Colossus超级计算机
icon
搜索文档
拥有20万GPU的集群建好了,只用了122天
半导体行业观察· 2025-05-09 09:13
核心观点 - xAI的孟菲斯超级集群一期项目已满负荷运营,电力供应达150兆瓦,另有150兆瓦电池备用 [1] - 该超级计算机搭载10万块NVIDIA H100 GPU,仅用19天完成部署,速度远超行业常规 [1][11] - 计划到2025年2月将GPU数量翻倍至20万块,并最终扩至100万块 [3][7] - 采用液冷系统和高效网络架构,专为AI训练优化 [9][10][13] - 主要用于训练Grok大型语言模型,并探索自动驾驶、机器人等AI应用 [13] 电力供应 - 一期工程从TVA和MLGW获得150兆瓦电力,60%来自可再生能源 [1][2] - 二期工程将新增150兆瓦电力,总电力需求达300兆瓦,可为30万户家庭供电 [2] - 初期使用35台天然气涡轮发电机作为临时电源,每台输出2.5兆瓦 [1] 技术架构 - 采用NVIDIA H100和H200 GPU组合,H200性能比H100提升20倍 [7][8] - 使用Supermicro 4U液冷服务器,每台含8块GPU,每机架64块GPU [9][10] - 网络采用NVIDIA Spectrum-X平台,每GPU配备400GbE网卡,总带宽达3.6TB [10] - 部署200个阵列,每个阵列512个GPU [10] 发展规划 - 计划通过中东主权财富基金筹集60亿美元资金用于扩建 [7][15] - 目标挑战OpenAI的GPT-4和Google的Bard等主流AI系统 [8] - 探索AI在材料科学、能源节约和新药研发等科学领域的应用 [13] 行业影响 - 部署速度创纪录,引发数据中心/AI行业广泛关注 [6] - 冷却技术成为关键挑战,多家供应商开发专用解决方案 [14] - 与特斯拉的Cortex AI超级集群形成互补,后者专注自动驾驶 [13] - 可能改变AI行业竞争格局,加速技术突破 [15]
马斯克商业帝国“跨界融合”:特斯拉(TSLA.US)电池助力xAI超级计算机
智通财经· 2025-05-08 09:06
公司动态 - 埃隆·马斯克旗下xAI使用特斯拉Megapack电池支持其位于孟菲斯的"Colossus"超级计算机 [1] - xAI项目连接到新变电站 可提供150兆瓦电力 [1] - xAI在2024年1月至2月期间在Megapacks上花费约2.3亿美元 [1] - 马斯克旗下五家公司(特斯拉 SpaceX Neuralink the Boring Company xAI)存在业务协同 [1] 技术应用 - Megapack电池用于应对停电和需求激增情况 [1] - 公用事业级电池可储存风能和太阳能电力 并在电价高涨时售回电网 [2] 业务发展 - 特斯拉能源部门被视为增长业务 公司使命为"加速世界向可持续能源过渡" [1] - xAI分两期建设设施 第一期完工后将拆除部分天然气涡轮机 [1] 行业趋势 - 公用事业级电池可带来丰厚利润 通过电力套利模式运作 [2]