事件概述 - 谷歌发布一篇关于TurboQuant技术的博客,引发美国内存股集体暴跌,其中闪迪一度跌6.5%,希捷科技跌超5%,西部数据跌超4%,美光科技跌4% [1][3][8] TurboQuant技术原理 - TurboQuant是一种压缩算法,可将大语言模型(LLM)的KV缓存内存占用减少至少6倍,速度提升高达8倍,且精度零损失 [6] - 技术核心是解决KV缓存问题:LLM生成文本时需保存历史信息的键(Key)和值(Value),随着提示词变长或模型层数增加,KV缓存体积线性膨胀,迫使硬件厂商使用昂贵的高带宽内存(HBM) [11] - 传统向量量化技术需为每个数据块存储全精度量化常数,导致每个数字多出1到2个bit的额外内存开销 [15] - TurboQuant采用两阶段压缩架构:第一阶段通过“随机旋转”和PolarQuant机制,将高维向量转换为极坐标表示,将数据拆分为“半径”和“角度”,使坐标分布集中,省去数据归一化步骤,将累赘内存开销削减为零 [16][17][18][20] - 第二阶段使用Quantized Johnson-Lindenstrauss变换(QJL),利用仅有的1 bit压缩空间处理微小残差,将向量数字简化为+1或-1的符号位,构建出无偏的内积量化器,彻底抹平计算偏差 [21][22][23][24] 技术性能表现 - 在超长上下文“大海捞针”任务中,TurboQuant将KV缓存压缩超过5倍的情况下,维持了完美的召回率;在普通生成任务中,使用3.5 bit极致压缩比也能做到质量无损 [26] - 基于Llama-3.1-8B-Instruct模型,在LongBench基准测试中,TurboQuant展现出强大的KV缓存压缩性能 [28] - 在H100 GPU上,使用4 bit版本的TurboQuant计算注意力逻辑的速度,比传统的32 bit无量化版本快8倍 [29] - 在向量数据库和搜索引擎的最近邻搜索领域,TurboQuant在召回率上击败现有乘积量化技术,并将庞大的索引构建时间压缩到几乎为零,例如在d=200维度上量化时间仅为0.0007秒,远低于其他方法 [32] - 在GloVe数据集(d=200)上,TurboQuant相对于多种最先进的量化基线,实现了最优的1@k召回率 [35] 对硬件市场的影响 - 该技术可能显著降低AI公司在推理端的硬件成本,原本需要8张高端显卡运行的大模型,现在可能只需两三张卡就能流畅运行 [36] - 这种底层算法突破有望打乱市场对内存芯片爆发式增长的预期,此前金融市场对内存芯片需求预期极度乐观 [13][36][37] - 尽管有此技术突破,内存、GPU、CPU等硬件价格似乎仍在继续上涨 [38]
内存股集体大跌,原因竟是谷歌这篇一年前的论文
机器之心·2026-03-26 19:41