Workflow
High Bandwidth Flash
icon
搜索文档
美国 IT 硬件-专家洞察:AI 数据中心需要多少内存-U.S. IT Hardware-Expert Insight How much memory do AI Data Centers need
2025-12-15 09:55
AI数据中心内存需求专家洞察电话会议纪要 涉及的行业与公司 * 行业:美国IT硬件、半导体、内存、存储、AI数据中心[1] * 提及的公司:Google、Grok、OpenAI、Anthropic、Amazon、NVIDIA、Cerebras、IBM、华为、DeepSeek[14][18][29][32][35][36] * 覆盖的上市公司:希捷科技(STX)、西部数据(WDC)、SanDisk(SNDK)、三星电子(005930.KS/005935.KS/SMSN.LI)、SK海力士(000660.KS)、美光科技(MU)、铠侠(285A.JP)[7] 核心观点与论据 AI训练与推理的内存需求差异 * AI训练对内存的需求远高于推理[2] * 训练需要存储大量数据,包括模型权重、激活值、梯度、优化器状态和频繁的检查点[2][15] * 推理只需存储临时张量和KV缓存以实现快速响应,内存需求低得多[2][15] * 以一个中等规模模型为例,训练消耗约1TB的合计内存,而推理需求则低得多[2] * 一个700亿参数的通用模型需要140GB存储权重,加上激活值等增加500GB,梯度再增加140GB,总计接近1TB[16] * 当前趋势是模型规模向万亿参数发展,例如Gemini 3.0、Kimi K2,规模是上述例子的10倍[16] 供需失衡与价格影响 * AI的快速普及导致内存需求和价格急剧上升,令超大规模云服务商措手不及[3][26] * 供需失衡推高了HBM和DRAM等关键组件的成本[3] * HBM4每堆栈的成本预计将比HBM3高出近50%[21] * 超大规模云服务商正在签署多年期HBM采购保证,为未来晶圆厂预付款,并进行垂直整合[29] * 需求远超供应,导致HBM、DRAM、SSD等价格全面上涨[21][29] 存储技术趋势:从HDD转向SSD * 由于HDD短缺,许多超大规模云服务商已转向SSD[4] * SSD比HDD贵5到10倍,但公司愿意承担更高成本以继续推进其模型[4][40] * 在某些用例中,SSD提供更优性能、更低的运营成本、更低的功耗和最小的冷却需求,从而降低总体拥有成本[4] * SSD具有更高的IOPS,无机械部件,冷却要求低,占用空间小[38][42] * 一个10年期的TCO案例研究显示:HDD总成本约为8000万至8500万美元,而SSD仅为3000万至4000万美元,SSD在电力、空间和维护成本上显著节省[46] 训练与推理的存储需求差异 * 训练对存储的需求极高,推理则相对较低[19][24] * 训练需要存储从TB到PB级的数据集,频繁的检查点需要大量写入,模型文件庞大,日志记录持续不断[24] * 训练对存储的总需求是推理的100到1000倍[24] * 最小模型(约70亿参数)的数据集为1到5TB,而Gemini 3.0、Claude 4.5、ChatGPT 5.0等最先进的多模态模型的整个训练需要1到5PB的存储[25] * 推理主要使用SSD进行快速模型加载,SATA SSD或HDD很少使用,因为推理需要快速服务和加载模型[25] TPU与GPU的对比 * TPU专为机器学习构建,架构针对大型深度学习任务优化,与GPU相比,具有更低的TCO、更高的每瓦性能以及卓越的可扩展性[4][49][51] * GPU拥有成熟的生态系统和更广泛的软件支持,尽管能效相对较低,但更适合快速原型设计和小规模项目[4][50] * TPU使用称为脉动阵列的专用设计,像工厂流水线,超级优化,在训练大批量作业时,TPU的能效和短时间扩展能力比GPU好2到3倍[51] * TPU使用VMEM(向量内存)在芯片上存储数据,使其超高速,并且每芯片容量要求更低,所需内存更少[53] * TPU未被广泛使用的主要原因是生态系统挑战和灵活性,用户基本上被锁定在GCP中使用[54][56] 新兴内存技术 * 高带宽闪存是一种新兴技术,旨在通过提供TB级的快速非易失性内存,来弥合传统DRAM和SSD存储之间的差距[5] * 这种新的内存层级有望降低能耗和冷却成本,同时为AI推理工作负载提供所需的高速,是下一代数据中心的有前景的解决方案[5] * SanDisk与SK海力士正在合作开发高带宽闪存,目标是为AI推理工作负载提供TB级内存,作为HBM和PCIe连接SSD之间的新快速访问内存层级[57] 中美AI发展对比 * 主要的前沿模型如Gemini、ChatGPT等均由美国公司开发,美国整体领先于中国[35] * 中国的模型(如华为盘古)参数规模接近1万亿,但基于评估,其性能未见超越美国模型[35] * 中国模型训练所使用的内存/硬件量显著低于OpenAI或Gemini[35] * 中国模型采用“蒸馏”等技术,并非从头训练,这使其更快、更高效,所需硬件/内存/训练时间更少[36] * DeepSeek是ChatGPT 4.0的蒸馏模型,这种创新技术有助于在内存供应瓶颈下保持竞争力[36] 行业创新与长期可持续性 * 行业创新,包括更高效的模型架构、先进的量化方法和新芯片的开发,预计将有助于长期管理内存需求并提高整体可持续性[3] * 更高效的模型架构、更激进的量化、新的内存技术、SSD或NAND缩放以及减少内存移动的加速器,将在未来2到5年内缓解压力[21] * 新模型并非全部从头训练,大量采用复用、蒸馏等技术,减少了从头训练的需求[16] * 超大规模云服务商正在采用量化来减少内存使用,采用以SRAM为中心的架构,重新构建推理以压缩缓存,并构建内存池数据中心[29] 其他重要内容 超大规模云服务商需求预测失误的原因 * 几年前发布ChatGPT-3、BARD时,公司并未完全意识到其产品的潜力,认为这只是机器学习的下一步[27] * 随着模型演进,他们意识到这些模型可以轻松获取信息并执行复杂任务,但最初对此没有洞察[27] * 2024年和2025年采用率增长如此之快,导致所有公司都在竞相构建最佳模型[27] * 2023年之前的所有规划都假设训练极其昂贵,推理便宜,可能只需要几个基础模型[28] * LLM在所有消费者应用中爆发,推理变为始终在线,集成到Gmail、Docs等应用中,需求激增[28][29] * 超大规模云服务商低估了AI尤其是内存受限方面的发展速度,现在他们正在为HBM、DRAM和SSD支付创纪录的价格[29] 推理内存需求的影响因素 * 推理的内存需求主要取决于模型在做什么,例如进行微调或添加LoRa权重适配器时,需要加载所有权重并分配内存[31] * 行业的一大趋势是在芯片上增加内存以实现更快的推理,例如Grok在LPU上使用SRAM,Google的Ironwood、Amazon的Trainium等新芯片都趋向于在推理时拥有更多片上内存[31] * 片上内存或推理所需的内存主要用于优化和加速过程,较少依赖于所执行的任务类型[31] 具体模型对比 * Gemini 3.0目前在所有推理、多模态、代理和其他基准任务上,相比5.1系列,在每一个用例和评估中都占据主导地位[33] * 性能更好的原因主要在于上下文窗口和模型训练方式,以及使用了另一种强化学习技术以获得更好的响应[33] HDD短缺对NAND需求的影响 * HDD短缺导致NAND闪存(主要用于SSD)使用增加[37] * HDD和NAND闪存都是非易失性数据存储的主要类型,基于成本、性能和容量以互补方式竞争[37] * HDD的供应链限制导致数据中心转向NAND闪存,用于数据中心的高容量模型[37] 投资建议 * 希捷科技(STX):跑赢大盘评级,目标价370美元[8] * 西部数据(WDC):与大市同步评级,目标价170美元[9] * SanDisk(SNDK):跑赢大盘评级,目标价300美元[10] * 三星电子:跑赢大盘评级,目标价130,000韩元[11] * SK海力士:跑赢大盘评级,目标价650,000韩元[11] * 美光科技(MU):跑赢大盘评级,目标价270美元[11] * 铠侠(KIOXIA):跑输大盘评级,目标价7,000日元[11]
Sandisk (NasdaqGS:SNDK) 2025 Conference Transcript
2025-12-03 08:17
纪要涉及的行业和公司 * 公司为闪存存储解决方案提供商Sandisk (NasdaqGS:SNDK) [1] * 行业为NAND闪存和固态硬盘(SSD)市场 [13] 核心观点和论据:行业格局与公司战略 * 公司认为NAND行业已进入新阶段 策略从追求节点更新和成本降低转向主动管理供应以实现中期利润最大化 [13][14][15] * 公司投资策略旨在满足市场**中十位数(mid-teens)** 的位元增长 但无约束需求在**低至中二十位数(low- to mid-20s)** 甚至更高 导致市场处于供应紧张状态 [13][16] * 公司认为当前**约900亿美元**的市场规模巨大 单一参与者难以通过过度投资来扭曲市场 过往的行业低迷已证明过度供应对所有人都是不利的 [19][24] * 公司上一季度毛利率为**29.9%** 其穿越周期的目标是达到**35%** 表明对行业经济改善仍有预期 [36] 核心观点和论据:产能投资与长期协议(LTAs) * 公司每年投资**数十亿美元(billions of dollars)** 以维持中十数位的增长 但投资决策基于**10年回报** 而多数买家需求展望仅**3个月** 存在期限错配 [22][23][25] * 为刺激更快增长的投资 需要需求方表现出更长期的承诺 即长期协议(LTAs) 目前已有少数大型客户就2026年、2027年及以后的供应进行初步接触 [26][28] * 公司对增加产能持谨慎态度 强调需要供需双方在行为上发生改变 建立对持续需求的共同信念 [25][29] 核心观点和论据:产品与技术路线图 * 公司在数据中心/企业级SSD市场的战略重点是凭借新产品夺取份额 新控制器“Stargate”程序已开始在前两家超大规模企业进行认证 第三家计划于2026年开始认证 [40][41] * 关键技术支柱包括:**BiCS8 UltraQLC**节点 QLC性能与能效优异 以及**2太比特(terabit)** 晶片 有利于打造更高容量的驱动器 [42][43] * 公司与铠侠(Kioxia)的合资策略专注于资本效率 通过提高晶片尺寸、存储孔密度等方式扩展NAND 而非单纯堆叠层数 以实现资本支出最小化下的最大位元输出 [44][45][46] * 公司正在开发**高带宽闪存(High Bandwidth Flash)** 以针对AI推理等用例优化带宽和耐久性 并与SK海力士在系统级规范上进行合作 目标在2027年初推出初始系统 [48][49][51][52] 核心观点和论据:财务与市场需求 * 公司财务表现改善 已偿还**5亿美元($500 million)** 定期贷款B(Term Loan B) 净债务从**7亿美元($700 million)** 大幅减少 现金生成能力增强 [53] * 公司计划将现金回报给投资者 但具体时间和形式尚在评估中 [53] * 需求方面 数据中心市场是主要驱动力 企业级SSD业务上季度实现**26%** 的环比增长 预计2026年无约束需求将显著超过实际供应 [33][34][55] * 公司认为市场机制会有效平衡供需 价格上升可能导致某些市场因经济性不足而无法被满足 这是市场的正常功能 [35][36] 其他重要内容 * 公司谈及中国市场 认为存在“中国为中国”的故事 有本土供应商表现优异 但公司仍视中国为重要市场并参与其中 [30][31] * 公司产品组合包括面向计算侧的高速TLC产品(已获多家超大规模企业认证)和面向存储侧的大容量QLC产品(Stargate程序) [55]