谷歌发布KV缓存压缩技术,存储需求预期遭冲击,美股存储板块集体下挫!
美股IPO·2026-03-26 07:04

谷歌发布TurboQuant内存压缩技术 - 谷歌发布名为TurboQuant的新型AI内存压缩技术,旨在解决大型语言模型和向量搜索引擎中键值缓存的存储瓶颈问题 [5] - 该技术可在无需模型训练或微调的前提下,将键值缓存压缩至3比特,在Gemma、Mistral等开源模型上实现键值内存6倍缩减 [6] - 在英伟达H100 GPU上,该算法较未量化键值方案性能提升最高达8倍 [6] 技术原理与验证 - TurboQuant通过两步实现压缩:首先采用PolarQuant方法对数据向量进行旋转以实现高质量压缩,继而利用量化Johnson-Lindenstrauss算法消除残差误差 [6] - 该技术改善了传统向量量化方法每个数字会产生1至2比特额外内存开销的问题 [6] - 谷歌已在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER及L-Eval等多项基准测试中完成验证,并指出该技术同样适用于大规模搜索引擎的向量检索场景 [6] - TurboQuant将于ICLR 2026发表,PolarQuant则计划在AISTATS 2026上亮相 [6] 对存储行业及市场的即时影响 - 该技术的发布引发市场对存储需求前景的担忧,导致美股存储芯片板块盘中遭遇重挫 [1][3] - 闪迪股价盘中一度跌6.5%,美光科技跌4%,西部数据跌超4%,希捷科技跌超5% [3] - 周三美股收盘,存储芯片与硬件供应链指数跌2.08%,报113.03点,盘中一度跌至109点刷新日低 [3] - 收盘时跌幅普遍收窄,闪迪和美光收跌超3.4%,希捷科技收跌2.6%,西部数据跌幅收窄至1.6% [1][3] 技术影响范围分析(摩根士丹利观点) - 摩根士丹利指出,该技术仅作用于AI推理阶段的键值缓存,不影响模型权重所占用的高带宽内存,也与训练任务无关 [7] - 因此,这并非存储总需求或硬件总量减少6倍,而是通过效率提升增加单GPU吞吐量 [7] - 效率提升表现为:相同硬件可支持4至8倍更长的上下文,或在不触发内存溢出的前提下显著提升批处理规模 [7] 长期潜在影响与“杰文斯悖论” - 摩根士丹利援引“杰文斯悖论”,认为效率提升(降低单次查询成本)可能反而推升整体需求,激活更多AI应用场景 [7] - 该技术使AI部署更具盈利性,意味着原本依赖云端集群的模型可迁移至本地硬件运行,有效降低AI规模化部署的门槛 [7] - 摩根士丹利将TurboQuant称为“重塑AI部署成本曲线的突破”,对云服务商与模型平台构成积极信号,在长上下文推理与检索密集型应用中带来可观的投资回报价值 [8] - 该机构对算力与内存硬件的长期影响判断为“中性偏正面” [8] 市场反应的其他驱动因素 - 存储板块今年以来累计涨幅显著,估值本已承压,任何可能削减硬件需求的技术进展都足以触发市场的防御性反应 [7] - 由于该压缩技术可直接集成进平台基础设施,摩根士丹利提示其对软件层面可能形成边际利空 [7]

谷歌发布KV缓存压缩技术,存储需求预期遭冲击,美股存储板块集体下挫! - Reportify