LMCache:基于KV缓存复用的LLM推理优化方案
新浪财经·2025-12-09 21:41

(来源:DeepHub IMBA) # Old way: Slow as molasses def get_answer(prompt): memory = build_memory_from_zero(prompt) # GPU cries return model.answer(memo LLM推理服务中,(Time-To-First-Token) 一直是个核心指标。用户发起请求到看见第一个token输出,这段时间越短体验越好,但实际部署中往往存在各 种问题。 LMCache针对TTFT提出了一套KV缓存持久化与复用的方案。项目开源,目前已经和vLLM深度集成。 原理 大模型推理有个特点:每次处理输入文本都要重新计算KV缓存。KV缓存可以理解为模型"阅读"文本时产生的中间状态,类似于做的笔记。 问题在于传统方案不复用这些"笔记"。同样的文本再来一遍,整个KV缓存从头算。 LMCache的做法是把KV缓存存下来——不光存GPU显存里,还能存到CPU内存、磁盘上。下次遇到相同文本(注意不只是前缀匹配,是任意位置的文本复 用),直接取缓存,省掉重复计算。 实测效果:搭配vLLM,在多轮对话、RAG这类场景下,响 ...