美国 IT 硬件-专家洞察：AI 数据中心需要多少内存-U.S. IT Hardware-Expert Insight How much memory do AI Data Centers need

AI数据中心内存需求专家洞察电话会议纪要涉及的行业与公司 * 行业：美国IT硬件、半导体、内存、存储、AI数据中心[1] * 提及的公司：Google、Grok、OpenAI、Anthropic、Amazon、NVIDIA、Cerebras、IBM、华为、DeepSeek[14][18][29][32][35][36] * 覆盖的上市公司：希捷科技(STX)、西部数据(WDC)、SanDisk(SNDK)、三星电子(005930.KS/005935.KS/SMSN.LI)、SK海力士(000660.KS)、美光科技(MU)、铠侠(285A.JP)[7] 核心观点与论据 AI训练与推理的内存需求差异 * AI训练对内存的需求远高于推理[2] * 训练需要存储大量数据，包括模型权重、激活值、梯度、优化器状态和频繁的检查点[2][15] * 推理只需存储临时张量和KV缓存以实现快速响应，内存需求低得多[2][15] * 以一个中等规模模型为例，训练消耗约1TB的合计内存，而推理需求则低得多[2] * 一个700亿参数的通用模型需要140GB存储权重，加上激活值等增加500GB，梯度再增加140GB，总计接近1TB[16] * 当前趋势是模型规模向万亿参数发展，例如Gemini 3.0、Kimi K2，规模是上述例子的10倍[16] 供需失衡与价格影响 * AI的快速普及导致内存需求和价格急剧上升，令超大规模云服务商措手不及[3][26] * 供需失衡推高了HBM和DRAM等关键组件的成本[3] * HBM4每堆栈的成本预计将比HBM3高出近50%[21] * 超大规模云服务商正在签署多年期HBM采购保证，为未来晶圆厂预付款，并进行垂直整合[29] * 需求远超供应，导致HBM、DRAM、SSD等价格全面上涨[21][29] 存储技术趋势：从HDD转向SSD * 由于HDD短缺，许多超大规模云服务商已转向SSD[4] * SSD比HDD贵5到10倍，但公司愿意承担更高成本以继续推进其模型[4][40] * 在某些用例中，SSD提供更优性能、更低的运营成本、更低的功耗和最小的冷却需求，从而降低总体拥有成本[4] * SSD具有更高的IOPS，无机械部件，冷却要求低，占用空间小[38][42] * 一个10年期的TCO案例研究显示：HDD总成本约为8000万至8500万美元，而SSD仅为3000万至4000万美元，SSD在电力、空间和维护成本上显著节省[46] 训练与推理的存储需求差异 * 训练对存储的需求极高，推理则相对较低[19][24] * 训练需要存储从TB到PB级的数据集，频繁的检查点需要大量写入，模型文件庞大，日志记录持续不断[24] * 训练对存储的总需求是推理的100到1000倍[24] * 最小模型(约70亿参数)的数据集为1到5TB，而Gemini 3.0、Claude 4.5、ChatGPT 5.0等最先进的多模态模型的整个训练需要1到5PB的存储[25] * 推理主要使用SSD进行快速模型加载，SATA SSD或HDD很少使用，因为推理需要快速服务和加载模型[25] TPU与GPU的对比 * TPU专为机器学习构建，架构针对大型深度学习任务优化，与GPU相比，具有更低的TCO、更高的每瓦性能以及卓越的可扩展性[4][49][51] * GPU拥有成熟的生态系统和更广泛的软件支持，尽管能效相对较低，但更适合快速原型设计和小规模项目[4][50] * TPU使用称为脉动阵列的专用设计，像工厂流水线，超级优化，在训练大批量作业时，TPU的能效和短时间扩展能力比GPU好2到3倍[51] * TPU使用VMEM(向量内存)在芯片上存储数据，使其超高速，并且每芯片容量要求更低，所需内存更少[53] * TPU未被广泛使用的主要原因是生态系统挑战和灵活性，用户基本上被锁定在GCP中使用[54][56] 新兴内存技术 * 高带宽闪存是一种新兴技术，旨在通过提供TB级的快速非易失性内存，来弥合传统DRAM和SSD存储之间的差距[5] * 这种新的内存层级有望降低能耗和冷却成本，同时为AI推理工作负载提供所需的高速，是下一代数据中心的有前景的解决方案[5] * SanDisk与SK海力士正在合作开发高带宽闪存，目标是为AI推理工作负载提供TB级内存，作为HBM和PCIe连接SSD之间的新快速访问内存层级[57] 中美AI发展对比 * 主要的前沿模型如Gemini、ChatGPT等均由美国公司开发，美国整体领先于中国[35] * 中国的模型(如华为盘古)参数规模接近1万亿，但基于评估，其性能未见超越美国模型[35] * 中国模型训练所使用的内存/硬件量显著低于OpenAI或Gemini[35] * 中国模型采用“蒸馏”等技术，并非从头训练，这使其更快、更高效，所需硬件/内存/训练时间更少[36] * DeepSeek是ChatGPT 4.0的蒸馏模型，这种创新技术有助于在内存供应瓶颈下保持竞争力[36] 行业创新与长期可持续性 * 行业创新，包括更高效的模型架构、先进的量化方法和新芯片的开发，预计将有助于长期管理内存需求并提高整体可持续性[3] * 更高效的模型架构、更激进的量化、新的内存技术、SSD或NAND缩放以及减少内存移动的加速器，将在未来2到5年内缓解压力[21] * 新模型并非全部从头训练，大量采用复用、蒸馏等技术，减少了从头训练的需求[16] * 超大规模云服务商正在采用量化来减少内存使用，采用以SRAM为中心的架构，重新构建推理以压缩缓存，并构建内存池数据中心[29] 其他重要内容超大规模云服务商需求预测失误的原因 * 几年前发布ChatGPT-3、BARD时，公司并未完全意识到其产品的潜力，认为这只是机器学习的下一步[27] * 随着模型演进，他们意识到这些模型可以轻松获取信息并执行复杂任务，但最初对此没有洞察[27] * 2024年和2025年采用率增长如此之快，导致所有公司都在竞相构建最佳模型[27] * 2023年之前的所有规划都假设训练极其昂贵，推理便宜，可能只需要几个基础模型[28] * LLM在所有消费者应用中爆发，推理变为始终在线，集成到Gmail、Docs等应用中，需求激增[28][29] * 超大规模云服务商低估了AI尤其是内存受限方面的发展速度，现在他们正在为HBM、DRAM和SSD支付创纪录的价格[29] 推理内存需求的影响因素 * 推理的内存需求主要取决于模型在做什么，例如进行微调或添加LoRa权重适配器时，需要加载所有权重并分配内存[31] * 行业的一大趋势是在芯片上增加内存以实现更快的推理，例如Grok在LPU上使用SRAM，Google的Ironwood、Amazon的Trainium等新芯片都趋向于在推理时拥有更多片上内存[31] * 片上内存或推理所需的内存主要用于优化和加速过程，较少依赖于所执行的任务类型[31] 具体模型对比 * Gemini 3.0目前在所有推理、多模态、代理和其他基准任务上，相比5.1系列，在每一个用例和评估中都占据主导地位[33] * 性能更好的原因主要在于上下文窗口和模型训练方式，以及使用了另一种强化学习技术以获得更好的响应[33] HDD短缺对NAND需求的影响 * HDD短缺导致NAND闪存(主要用于SSD)使用增加[37] * HDD和NAND闪存都是非易失性数据存储的主要类型，基于成本、性能和容量以互补方式竞争[37] * HDD的供应链限制导致数据中心转向NAND闪存，用于数据中心的高容量模型[37] 投资建议 * 希捷科技(STX)：跑赢大盘评级，目标价370美元[8] * 西部数据(WDC)：与大市同步评级，目标价170美元[9] * SanDisk(SNDK)：跑赢大盘评级，目标价300美元[10] * 三星电子：跑赢大盘评级，目标价130,000韩元[11] * SK海力士：跑赢大盘评级，目标价650,000韩元[11] * 美光科技(MU)：跑赢大盘评级，目标价270美元[11] * 铠侠(KIOXIA)：跑输大盘评级，目标价7,000日元[11]