Workflow
AI推理内存压缩
icon
搜索文档
谷歌新论文把内存股价干崩了!KV cache压缩6倍,“谷歌的DeepSeek时刻”
量子位· 2026-03-26 09:38
文章核心观点 - 谷歌研究团队提出了一种名为TurboQuant的新型压缩算法,可将AI推理过程中关键的KV Cache内存占用压缩至少6倍,且实现零精度损失,该研究成果的发布引发了市场对存储芯片需求可能下降的担忧,并导致美光、西部数据等公司股价下跌 [1][4][5] 事件背景与市场反应 - 谷歌在ICLR学术会议上展示的TurboQuant论文,直接触发了美光与西部数据两家存储芯片巨头股价大跌,尽管公司并无基本面恶化 [1] - 市场逻辑直接指向该技术将减少长上下文AI推理对内存的需求,从而对内存行业构成利空 [5] - 该技术的突破性被类比为美剧《硅谷》中虚构的“近乎无损极限压缩算法”在现实中成真 [6][8][9] TurboQuant技术原理 - 该算法旨在解决AI大模型长上下文推理时,KV Cache内存消耗急剧膨胀的核心瓶颈问题 [11][12] - 技术核心包含两项创新:PolarQuant(极坐标量化)和QJL(量化JL变换) [16] - PolarQuant通过将数据从直角坐标系转换到极坐标系,利用角度分布集中可预测的特性,消除了存储额外量化常数的开销 [17][18][20] - QJL通过将高维数据投影压缩为+1/-1符号位,无需额外内存,用于修正PolarQuant的微小残差误差 [21][22] - 两项技术结合,最终实现了无需训练或微调的3-bit量化,且精度零损失 [23] 性能表现与影响 - 在Gemma、Mistral等开源模型上测试,TurboQuant在所有长上下文基准测试中均表现优异,在“大海捞针”任务中获得完美分数 [24][25] - 该技术将KV Cache内存占用缩小了至少6倍 [25] - 在英伟达H100 GPU上,4-bit TurboQuant计算注意力分数的速度比32-bit未量化版本快8倍,实现既省内存又提速的效果 [29] - 在向量搜索领域,该技术同样超越了现有最优量化方法的召回率,且无需针对特定数据集调优或依赖低效大码本 [30] - 技术应用前景广泛,可用于谷歌Gemini等大模型,并大幅提升万亿级向量索引语义搜索的效率和降低成本 [36] 技术现状与行业意义 - TurboQuant目前仍为实验室成果,尚未大规模部署 [37] - 该技术仅解决AI推理阶段的内存问题,对训练环节没有影响 [38] - 该突破被Cloudflare CEO评价为“谷歌的DeepSeek时刻”,其意义在于证明了用更少的内存资源也能运行同等质量的AI推理,类似于DeepSeek证明了用更少资源能训练顶尖模型 [32][33][34]