2倍提速!KV缓存压缩不只看重要性,上交大团队让模型推理「又快又稳」 | ICLR'26
量子位·2026-03-31 09:53

长上下文推理已经成了VLM/LLM的默认形态。 但真正的"隐形天花板"往往出现在推理端的KV缓存里。 上下文一拉长,KV缓存线性膨胀,显存占用与带宽开销一起飙升,吞吐自然被压下去。 MixKV团队 投稿 量子位 | 公众号 QbitAI 于是,KV缓存压缩成了绕不开的工程选项。然而,压缩确实省显存,却常常带来"越压越不稳"的翻车风险。来自 上海交通大学EPIC Lab 的 研究团队指出,这背后是压缩准则的根本问题: 发现1:如图1所示,视觉-语言输入下的相似度分布整体明显右移 (更偏向高相似度区间) 。这意味着在多模态输入中,KV缓存里 语义相 近/重复的内容更多 —也就是冗余更强。换句话说,多模态KV缓存的"可压缩空间"更大,但同时也更容易出现"保留了一堆看似重要、实则重 复"的情况。 很多方法几乎只优化"重要性 (importance) ",却忽略了多模态KV中天生更强的"语义冗余 (redundancy) "。当一批高度相似的KV反复 被保留下来,它们不会线性叠加信息量,反而挤占预算、压缩语义覆盖面,让模型在冗余里越选越窄,稳定性自然难以保证。 为了解决这一问题,团队提出 MixKV :把"重要性"和" ...

2倍提速!KV缓存压缩不只看重要性,上交大团队让模型推理「又快又稳」 | ICLR'26 - Reportify