文章核心观点 - 随着大语言模型上下文长度向1M演进,KV Cache已成为制约推理服务效率的核心瓶颈,其显存占用随上下文增长而膨胀,带来显著内存瓶颈[2] - 近期一篇深度综述从MLSys思维出发,以“时间-空间-结构”系统行为视角对KV Cache优化方法进行了系统性梳理,并整理了持续维护的Awesome资源库[2] - 该综述定义了sKis的边界:在推理服务阶段,以KV Cache为核心优化对象,在不依赖模型重训或结构修改的前提下,提升吞吐、延迟等核心系统指标[3] KV Cache优化技术系统行为视角 - 综述创新性地以系统行为视角组织KV Cache优化技术,按优化策略在系统中发生的时间、空间、结构三个维度划分,便于对齐工程实现与组合策略[6] - 基于三个维度,现有工作被归纳为7个二级类别:以KV为中心的调度、流水线与重叠、硬件感知的执行、跨内存层级的KV编排、跨计算设备的KV编排、KV Cache压缩、KV Cache留存管理[7] - 论文为每一类技术提炼了关键要点、局限与权衡,给出了可落地的实用指导[8] 时间维度:执行与调度 - 该分类关注KV何时被访问和计算,例如设计以KV为中心的调度策略,或采用流水线来掩盖延迟[9] 空间维度:放置与迁移 - 该分类关注数据的存储,例如在GPU、CPU、SSD构成的存储层级中如何使热点KV留在GPU显存中,或在分布式/异构计算设备中设计迁移策略[9] 结构维度:表示与留存 - 该分类关注数据表示,是目前最拥挤的赛道,包括量化、驱逐等论文密集的子领域,旨在直接减少KV Cache的物理体积[9] 深度洞察与开放挑战 - 作者对百余篇论文进行了全局交叉分析,归纳了7大关键观察,并引发了6大开放挑战[12] - 分析包括跨行为共现分析以揭示不同维度KV行为间的内在联系和协同模式,以及深入分析KV行为与优化目标的作用关系[12] - 开放挑战包括在追求效率时可能忽视了可信度的隐形崩塌等问题[13] 相关资源 - 论文作者同步维护了一个Awesome风格的资源库,收录并持续更新sKis领域的最新论文和代码实现,方便社区追踪进展[15] - 论文地址与项目地址已在文中提供[3]
不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
机器之心·2026-01-16 16:13