不止于量化：最新综述用「时-空-构」三维视角解构KV Cache系统级优化

文章核心观点 - 随着大语言模型上下文长度向1M演进，KV Cache已成为制约推理服务效率的核心瓶颈，其显存占用随上下文增长而膨胀，带来显著内存瓶颈[2] - 近期一篇深度综述从MLSys思维出发，以“时间-空间-结构”系统行为视角对KV Cache优化方法进行了系统性梳理，并整理了持续维护的Awesome资源库[2] - 该综述定义了sKis的边界：在推理服务阶段，以KV Cache为核心优化对象，在不依赖模型重训或结构修改的前提下，提升吞吐、延迟等核心系统指标[3] KV Cache优化技术系统行为视角 - 综述创新性地以系统行为视角组织KV Cache优化技术，按优化策略在系统中发生的时间、空间、结构三个维度划分，便于对齐工程实现与组合策略[6] - 基于三个维度，现有工作被归纳为7个二级类别：以KV为中心的调度、流水线与重叠、硬件感知的执行、跨内存层级的KV编排、跨计算设备的KV编排、KV Cache压缩、KV Cache留存管理[7] - 论文为每一类技术提炼了关键要点、局限与权衡，给出了可落地的实用指导[8] 时间维度：执行与调度 - 该分类关注KV何时被访问和计算，例如设计以KV为中心的调度策略，或采用流水线来掩盖延迟[9] 空间维度：放置与迁移 - 该分类关注数据的存储，例如在GPU、CPU、SSD构成的存储层级中如何使热点KV留在GPU显存中，或在分布式/异构计算设备中设计迁移策略[9] 结构维度：表示与留存 - 该分类关注数据表示，是目前最拥挤的赛道，包括量化、驱逐等论文密集的子领域，旨在直接减少KV Cache的物理体积[9] 深度洞察与开放挑战 - 作者对百余篇论文进行了全局交叉分析，归纳了7大关键观察，并引发了6大开放挑战[12] - 分析包括跨行为共现分析以揭示不同维度KV行为间的内在联系和协同模式，以及深入分析KV行为与优化目标的作用关系[12] - 开放挑战包括在追求效率时可能忽视了可信度的隐形崩塌等问题[13] 相关资源 - 论文作者同步维护了一个Awesome风格的资源库，收录并持续更新sKis领域的最新论文和代码实现，方便社区追踪进展[15] - 论文地址与项目地址已在文中提供[3]