美国 IT 硬件-专家洞察:AI 数据中心需要多少内存-U.S. IT Hardware-Expert Insight How much memory do AI Data Centers need
2025-12-15 09:55

AI数据中心内存需求专家洞察电话会议纪要 涉及的行业与公司 * 行业:美国IT硬件、半导体、内存、存储、AI数据中心[1] * 提及的公司:Google、Grok、OpenAI、Anthropic、Amazon、NVIDIA、Cerebras、IBM、华为、DeepSeek[14][18][29][32][35][36] * 覆盖的上市公司:希捷科技(STX)、西部数据(WDC)、SanDisk(SNDK)、三星电子(005930.KS/005935.KS/SMSN.LI)、SK海力士(000660.KS)、美光科技(MU)、铠侠(285A.JP)[7] 核心观点与论据 AI训练与推理的内存需求差异 * AI训练对内存的需求远高于推理[2] * 训练需要存储大量数据,包括模型权重、激活值、梯度、优化器状态和频繁的检查点[2][15] * 推理只需存储临时张量和KV缓存以实现快速响应,内存需求低得多[2][15] * 以一个中等规模模型为例,训练消耗约1TB的合计内存,而推理需求则低得多[2] * 一个700亿参数的通用模型需要140GB存储权重,加上激活值等增加500GB,梯度再增加140GB,总计接近1TB[16] * 当前趋势是模型规模向万亿参数发展,例如Gemini 3.0、Kimi K2,规模是上述例子的10倍[16] 供需失衡与价格影响 * AI的快速普及导致内存需求和价格急剧上升,令超大规模云服务商措手不及[3][26] * 供需失衡推高了HBM和DRAM等关键组件的成本[3] * HBM4每堆栈的成本预计将比HBM3高出近50%[21] * 超大规模云服务商正在签署多年期HBM采购保证,为未来晶圆厂预付款,并进行垂直整合[29] * 需求远超供应,导致HBM、DRAM、SSD等价格全面上涨[21][29] 存储技术趋势:从HDD转向SSD * 由于HDD短缺,许多超大规模云服务商已转向SSD[4] * SSD比HDD贵5到10倍,但公司愿意承担更高成本以继续推进其模型[4][40] * 在某些用例中,SSD提供更优性能、更低的运营成本、更低的功耗和最小的冷却需求,从而降低总体拥有成本[4] * SSD具有更高的IOPS,无机械部件,冷却要求低,占用空间小[38][42] * 一个10年期的TCO案例研究显示:HDD总成本约为8000万至8500万美元,而SSD仅为3000万至4000万美元,SSD在电力、空间和维护成本上显著节省[46] 训练与推理的存储需求差异 * 训练对存储的需求极高,推理则相对较低[19][24] * 训练需要存储从TB到PB级的数据集,频繁的检查点需要大量写入,模型文件庞大,日志记录持续不断[24] * 训练对存储的总需求是推理的100到1000倍[24] * 最小模型(约70亿参数)的数据集为1到5TB,而Gemini 3.0、Claude 4.5、ChatGPT 5.0等最先进的多模态模型的整个训练需要1到5PB的存储[25] * 推理主要使用SSD进行快速模型加载,SATA SSD或HDD很少使用,因为推理需要快速服务和加载模型[25] TPU与GPU的对比 * TPU专为机器学习构建,架构针对大型深度学习任务优化,与GPU相比,具有更低的TCO、更高的每瓦性能以及卓越的可扩展性[4][49][51] * GPU拥有成熟的生态系统和更广泛的软件支持,尽管能效相对较低,但更适合快速原型设计和小规模项目[4][50] * TPU使用称为脉动阵列的专用设计,像工厂流水线,超级优化,在训练大批量作业时,TPU的能效和短时间扩展能力比GPU好2到3倍[51] * TPU使用VMEM(向量内存)在芯片上存储数据,使其超高速,并且每芯片容量要求更低,所需内存更少[53] * TPU未被广泛使用的主要原因是生态系统挑战和灵活性,用户基本上被锁定在GCP中使用[54][56] 新兴内存技术 * 高带宽闪存是一种新兴技术,旨在通过提供TB级的快速非易失性内存,来弥合传统DRAM和SSD存储之间的差距[5] * 这种新的内存层级有望降低能耗和冷却成本,同时为AI推理工作负载提供所需的高速,是下一代数据中心的有前景的解决方案[5] * SanDisk与SK海力士正在合作开发高带宽闪存,目标是为AI推理工作负载提供TB级内存,作为HBM和PCIe连接SSD之间的新快速访问内存层级[57] 中美AI发展对比 * 主要的前沿模型如Gemini、ChatGPT等均由美国公司开发,美国整体领先于中国[35] * 中国的模型(如华为盘古)参数规模接近1万亿,但基于评估,其性能未见超越美国模型[35] * 中国模型训练所使用的内存/硬件量显著低于OpenAI或Gemini[35] * 中国模型采用“蒸馏”等技术,并非从头训练,这使其更快、更高效,所需硬件/内存/训练时间更少[36] * DeepSeek是ChatGPT 4.0的蒸馏模型,这种创新技术有助于在内存供应瓶颈下保持竞争力[36] 行业创新与长期可持续性 * 行业创新,包括更高效的模型架构、先进的量化方法和新芯片的开发,预计将有助于长期管理内存需求并提高整体可持续性[3] * 更高效的模型架构、更激进的量化、新的内存技术、SSD或NAND缩放以及减少内存移动的加速器,将在未来2到5年内缓解压力[21] * 新模型并非全部从头训练,大量采用复用、蒸馏等技术,减少了从头训练的需求[16] * 超大规模云服务商正在采用量化来减少内存使用,采用以SRAM为中心的架构,重新构建推理以压缩缓存,并构建内存池数据中心[29] 其他重要内容 超大规模云服务商需求预测失误的原因 * 几年前发布ChatGPT-3、BARD时,公司并未完全意识到其产品的潜力,认为这只是机器学习的下一步[27] * 随着模型演进,他们意识到这些模型可以轻松获取信息并执行复杂任务,但最初对此没有洞察[27] * 2024年和2025年采用率增长如此之快,导致所有公司都在竞相构建最佳模型[27] * 2023年之前的所有规划都假设训练极其昂贵,推理便宜,可能只需要几个基础模型[28] * LLM在所有消费者应用中爆发,推理变为始终在线,集成到Gmail、Docs等应用中,需求激增[28][29] * 超大规模云服务商低估了AI尤其是内存受限方面的发展速度,现在他们正在为HBM、DRAM和SSD支付创纪录的价格[29] 推理内存需求的影响因素 * 推理的内存需求主要取决于模型在做什么,例如进行微调或添加LoRa权重适配器时,需要加载所有权重并分配内存[31] * 行业的一大趋势是在芯片上增加内存以实现更快的推理,例如Grok在LPU上使用SRAM,Google的Ironwood、Amazon的Trainium等新芯片都趋向于在推理时拥有更多片上内存[31] * 片上内存或推理所需的内存主要用于优化和加速过程,较少依赖于所执行的任务类型[31] 具体模型对比 * Gemini 3.0目前在所有推理、多模态、代理和其他基准任务上,相比5.1系列,在每一个用例和评估中都占据主导地位[33] * 性能更好的原因主要在于上下文窗口和模型训练方式,以及使用了另一种强化学习技术以获得更好的响应[33] HDD短缺对NAND需求的影响 * HDD短缺导致NAND闪存(主要用于SSD)使用增加[37] * HDD和NAND闪存都是非易失性数据存储的主要类型,基于成本、性能和容量以互补方式竞争[37] * HDD的供应链限制导致数据中心转向NAND闪存,用于数据中心的高容量模型[37] 投资建议 * 希捷科技(STX):跑赢大盘评级,目标价370美元[8] * 西部数据(WDC):与大市同步评级,目标价170美元[9] * SanDisk(SNDK):跑赢大盘评级,目标价300美元[10] * 三星电子:跑赢大盘评级,目标价130,000韩元[11] * SK海力士:跑赢大盘评级,目标价650,000韩元[11] * 美光科技(MU):跑赢大盘评级,目标价270美元[11] * 铠侠(KIOXIA):跑输大盘评级,目标价7,000日元[11]