内存股集体大跌，原因竟是谷歌这篇一年前的论文

事件概述 - 谷歌发布一篇关于TurboQuant技术的博客，引发美国内存股集体暴跌，其中闪迪一度跌6.5%，希捷科技跌超5%，西部数据跌超4%，美光科技跌4% [1][3][8] TurboQuant技术原理 - TurboQuant是一种压缩算法，可将大语言模型(LLM)的KV缓存内存占用减少至少6倍，速度提升高达8倍，且精度零损失 [6] - 技术核心是解决KV缓存问题：LLM生成文本时需保存历史信息的键(Key)和值(Value)，随着提示词变长或模型层数增加，KV缓存体积线性膨胀，迫使硬件厂商使用昂贵的高带宽内存(HBM) [11] - 传统向量量化技术需为每个数据块存储全精度量化常数，导致每个数字多出1到2个bit的额外内存开销 [15] - TurboQuant采用两阶段压缩架构：第一阶段通过“随机旋转”和PolarQuant机制，将高维向量转换为极坐标表示，将数据拆分为“半径”和“角度”，使坐标分布集中，省去数据归一化步骤，将累赘内存开销削减为零 [16][17][18][20] - 第二阶段使用Quantized Johnson-Lindenstrauss变换(QJL)，利用仅有的1 bit压缩空间处理微小残差，将向量数字简化为+1或-1的符号位，构建出无偏的内积量化器，彻底抹平计算偏差 [21][22][23][24] 技术性能表现 - 在超长上下文“大海捞针”任务中，TurboQuant将KV缓存压缩超过5倍的情况下，维持了完美的召回率；在普通生成任务中，使用3.5 bit极致压缩比也能做到质量无损 [26] - 基于Llama-3.1-8B-Instruct模型，在LongBench基准测试中，TurboQuant展现出强大的KV缓存压缩性能 [28] - 在H100 GPU上，使用4 bit版本的TurboQuant计算注意力逻辑的速度，比传统的32 bit无量化版本快8倍 [29] - 在向量数据库和搜索引擎的最近邻搜索领域，TurboQuant在召回率上击败现有乘积量化技术，并将庞大的索引构建时间压缩到几乎为零，例如在d=200维度上量化时间仅为0.0007秒，远低于其他方法 [32] - 在GloVe数据集(d=200)上，TurboQuant相对于多种最先进的量化基线，实现了最优的1@k召回率 [35] 对硬件市场的影响 - 该技术可能显著降低AI公司在推理端的硬件成本，原本需要8张高端显卡运行的大模型，现在可能只需两三张卡就能流畅运行 [36] - 这种底层算法突破有望打乱市场对内存芯片爆发式增长的预期，此前金融市场对内存芯片需求预期极度乐观 [13][36][37] - 尽管有此技术突破，内存、GPU、CPU等硬件价格似乎仍在继续上涨 [38]