2倍提速！KV缓存压缩不只看重要性，上交大团队让模型推理「又快又稳」

长上下文推理已经成了VLM/LLM的默认形态。但真正的"隐形天花板"往往出现在推理端的KV缓存里。上下文一拉长，KV缓存线性膨胀，显存占用与带宽开销一起飙升，吞吐自然被压下去。 MixKV团队投稿量子位 | 公众号 QbitAI 于是，KV缓存压缩成了绕不开的工程选项。然而，压缩确实省显存，却常常带来"越压越不稳"的翻车风险。来自上海交通大学EPIC Lab 的研究团队指出，这背后是压缩准则的根本问题：发现1：如图1所示，视觉-语言输入下的相似度分布整体明显右移（更偏向高相似度区间）。这意味着在多模态输入中，KV缓存里语义相近/重复的内容更多 —也就是冗余更强。换句话说，多模态KV缓存的"可压缩空间"更大，但同时也更容易出现"保留了一堆看似重要、实则重复"的情况。很多方法几乎只优化"重要性（importance） "，却忽略了多模态KV中天生更强的"语义冗余（redundancy） "。当一批高度相似的KV反复被保留下来，它们不会线性叠加信息量，反而挤占预算、压缩语义覆盖面，让模型在冗余里越选越窄，稳定性自然难以保证。为了解决这一问题，团队提出 MixKV ：把"重要性"和" ...