AI推理内存压缩 - 财报，业绩电话会，研报，新闻

AI推理内存压缩

搜索文档

谷歌新论文把内存股价干崩了！KV cache压缩6倍，“谷歌的DeepSeek时刻”

量子位· 2026-03-26 09:38

文章核心观点 - 谷歌研究团队提出了一种名为TurboQuant的新型压缩算法，可将AI推理过程中关键的KV Cache内存占用压缩至少6倍，且实现零精度损失，该研究成果的发布引发了市场对存储芯片需求可能下降的担忧，并导致美光、西部数据等公司股价下跌 [1][4][5] 事件背景与市场反应 - 谷歌在ICLR学术会议上展示的TurboQuant论文，直接触发了美光与西部数据两家存储芯片巨头股价大跌，尽管公司并无基本面恶化 [1] - 市场逻辑直接指向该技术将减少长上下文AI推理对内存的需求，从而对内存行业构成利空 [5] - 该技术的突破性被类比为美剧《硅谷》中虚构的“近乎无损极限压缩算法”在现实中成真 [6][8][9] TurboQuant技术原理 - 该算法旨在解决AI大模型长上下文推理时，KV Cache内存消耗急剧膨胀的核心瓶颈问题 [11][12] - 技术核心包含两项创新：PolarQuant（极坐标量化）和QJL（量化JL变换） [16] - PolarQuant通过将数据从直角坐标系转换到极坐标系，利用角度分布集中可预测的特性，消除了存储额外量化常数的开销 [17][18][20] - QJL通过将高维数据投影压缩为+1/-1符号位，无需额外内存，用于修正PolarQuant的微小残差误差 [21][22] - 两项技术结合，最终实现了无需训练或微调的3-bit量化，且精度零损失 [23] 性能表现与影响 - 在Gemma、Mistral等开源模型上测试，TurboQuant在所有长上下文基准测试中均表现优异，在“大海捞针”任务中获得完美分数 [24][25] - 该技术将KV Cache内存占用缩小了至少6倍 [25] - 在英伟达H100 GPU上，4-bit TurboQuant计算注意力分数的速度比32-bit未量化版本快8倍，实现既省内存又提速的效果 [29] - 在向量搜索领域，该技术同样超越了现有最优量化方法的召回率，且无需针对特定数据集调优或依赖低效大码本 [30] - 技术应用前景广泛，可用于谷歌Gemini等大模型，并大幅提升万亿级向量索引语义搜索的效率和降低成本 [36] 技术现状与行业意义 - TurboQuant目前仍为实验室成果，尚未大规模部署 [37] - 该技术仅解决AI推理阶段的内存问题，对训练环节没有影响 [38] - 该突破被Cloudflare CEO评价为“谷歌的DeepSeek时刻”，其意义在于证明了用更少的内存资源也能运行同等质量的AI推理，类似于DeepSeek证明了用更少资源能训练顶尖模型 [32][33][34]