Workflow
AI内存压缩
icon
搜索文档
谷歌迎来“DeepSeek时刻”!TurboQuant引爆AI圈、全球开发者疯狂复现:6倍无损压缩,内存股集体暴跌
AI前线· 2026-03-26 13:17
TurboQuant技术核心与性能 - 谷歌研究院发布TurboQuant压缩算法,能在保持准确性不变的前提下,降低大语言模型(LLM)的内存占用并提升运行速度[2] - 该算法可将AI运行时的键值缓存(KV cache)压缩至少6倍,并在英伟达H100显卡上实现最高8倍的速度提升[2] - 技术关键亮点是精度零损失,无需微调或训练数据,可直接接入任意Transformer模型,将键值缓存压缩至原体积的一小部分,同时输出结果完全一致[5] - 谷歌在Gemma和Mistral开源模型上的测试显示,TurboQuant在所有下游任务中表现完美,将键值缓存内存占用降低6倍,并可将缓存量化至仅3比特[10] - 在英伟达H100加速器上,使用4比特TurboQuant计算注意力分数,速度比32比特未量化键值快8倍[10] 技术原理与构成 - TurboQuant的应用分为两个阶段,涉及两项关键技术:量化方法PolarQuant以及训练与优化方法QJL(量化约翰逊-林登斯特劳斯变换)[14] - PolarQuant通过将向量从标准XYZ坐标转换为笛卡尔坐标系下的极坐标(半径和方向)来实现压缩,占用空间更少且省去了数据归一化步骤[14] - QJL用于修复PolarQuant产生的残留误差,通过添加一层1比特误差校正层,将每个向量压缩至单个比特(+1或-1),且不产生额外内存开销[15] - 组合效果是PolarQuant实现极致压缩,QJL以近乎可忽略的成本修正误差,保证模型能够精准计算注意力分数[15] 应用场景与潜在影响 - 除大语言模型推理外,TurboQuant也适用于向量检索场景,如检索增强生成(RAG)与相似度搜索[12] - 在向量检索中,使用TurboQuant后,索引构建时间几乎降至零(1536维向量仅需0.0013秒,而乘积量化需239.75秒),且在GloVE数据集上的召回率优于基准模型[12] - 若成功落地,该技术有望大幅降低AI模型的运行成本,减少内存消耗,并可能使公司利用释放出的内存运行更复杂的模型[11] - 移动端AI可能受益最为明显,该技术可在不上传数据至云端的前提下,提升本地AI的生成质量[11] 市场反应与行业动态 - TurboQuant发布后数小时内,内存类股票应声下跌:美光科技跌3%,西部数据跌4.7%,闪迪跌5.7%[5] - A股市场存储芯片股也集体下挫,其中兆易创新、佰维存储、恒烁股份跌超5%,多家公司跌超4%或3%[20] - 分析师指出,该技术直接冲击了AI系统的内存成本曲线,若被广泛采用,将引发对行业实际需要内存容量的重新估算[20] - AI基础设施支出正高速增长,仅Meta近期就计划投入高达270亿美元用于专属算力,谷歌、微软、亚马逊也计划在2026年前投入数千亿美元用于数据中心[21] - 一项能将内存需求降低6倍的技术会改变成本结构比例,在大规模投入下,小幅效率提升的影响会被快速放大[21] 技术复现与竞争格局 - 尽管谷歌未发布官方代码,独立开发者已凭论文开始构建可运行版本,在PyTorch、MLX框架及llama.cpp社区均有复现案例[17] - 有开发者在RTX 4090上测试Gemma 3 4B模型,在2比特精度下,模型输出与未压缩基准版逐字符完全一致[17] - 复现算法存在挑战,QJL误差校正模块若实现不当会导致输出乱码,目前主流推理框架如vLLM、llama.cpp、Ollama均未集成该技术[18] - 英伟达也推出了竞争算法KVTC,可实现20倍压缩且精度损失不到1个百分点,在更大参数范围(15亿至700亿)的模型上完成测试[22] - KVTC在8000 token的长提示词下,可将首token延迟最高降低8倍(在H100上从约3秒缩短至380毫秒),但需要针对每个模型执行一次性校准步骤[22] - 两种压缩标准在ICLR 2026同期亮相,标志着KV缓存优化正从纯研究课题成熟为生产级基础设施层[22]