LMCache
搜索文档
LMCache:基于KV缓存复用的LLM推理优化方案
新浪财经· 2025-12-09 21:41
(来源:DeepHub IMBA) # Old way: Slow as molasses def get_answer(prompt): memory = build_memory_from_zero(prompt) # GPU cries return model.answer(memo LLM推理服务中,(Time-To-First-Token) 一直是个核心指标。用户发起请求到看见第一个token输出,这段时间越短体验越好,但实际部署中往往存在各 种问题。 LMCache针对TTFT提出了一套KV缓存持久化与复用的方案。项目开源,目前已经和vLLM深度集成。 原理 大模型推理有个特点:每次处理输入文本都要重新计算KV缓存。KV缓存可以理解为模型"阅读"文本时产生的中间状态,类似于做的笔记。 问题在于传统方案不复用这些"笔记"。同样的文本再来一遍,整个KV缓存从头算。 LMCache的做法是把KV缓存存下来——不光存GPU显存里,还能存到CPU内存、磁盘上。下次遇到相同文本(注意不只是前缀匹配,是任意位置的文本复 用),直接取缓存,省掉重复计算。 实测效果:搭配vLLM,在多轮对话、RAG这类场景下,响 ...
英伟达、DeepSeek集体跟进,18个月前被忽视,如今统治AI推理
36氪· 2025-11-10 12:11
文章核心观点 - DistServe提出的“解耦推理”理念在短短一年多时间内从实验室概念发展为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向“模块化智能”的新时代 [1] - 大模型推理成本的下降速度已远超“摩尔定律”关于计算能力迭代速度的预测,这主要得益于推理系统自身的进化,特别是“解耦推理”架构的实践 [1] - “解耦推理”通过将大模型的“预填充”和“解码”两个阶段拆分为独立的计算资源池,解决了传统“同址部署”方式下的延迟干扰和资源耦合伸缩问题,实现了延迟的独立控制和资源利用率的显著提升 [1][19] 解耦推理的提出与背景 - DistServe系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月推出,其核心创新是首次提出并实践“解耦推理”理念 [1][19] - 在DistServe出现之前,业界标准是采用“同址部署”方式,即在同一块GPU上执行预填充和解码阶段,并依赖“连续批处理”技术 [9] - 传统“同址部署”方式存在两个根本性限制:一是预填充和解码阶段的延迟会相互干扰,大型预填充请求可能使TPOT膨胀2到3倍;二是资源分配器需同时满足两种最坏情况的延迟需求,导致计算资源利用率低下 [11][12][16][17] 解耦推理的优势与行业采纳 - DistServe通过将预填充与解码拆分为独立计算池,彻底打破二者干扰,并首次实现独立伸缩,使其能各自独立满足TTFT和TPOT的延迟要求 [19] - 解耦推理架构在2025年出现逆转性采纳,几乎所有主流大模型推理栈都将其视为默认方案,主要原因包括:企业级应用对延迟控制要求日益严格;模型体量扩大和流量激增需要系统扩展至数百上千张GPU;解耦架构大大增强了系统的可组合性 [22] - 该架构的优势在大规模生产环境中完全显现,可为不同阶段独立分配资源并灵活配合多种并行策略,实现极高的资源利用率 [22] 当前解耦推理的应用生态 - 在编排层,NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为预填充/解码解耦而设计,其他代表还有llm-d、Ray Serve等 [23][25] - 在存储层,Kimi AI团队的MoonCake以“KVCache中心化”为核心思想构建面向解耦的推理平台,芝加哥大学团队的LMCache通过加速KV缓存移动来优化解耦过程,两者已成为大规模LLM推理系统的标准存储后端 [28][29][31] - 在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持“解耦推理” [31] 解耦推理的未来演进方向 - 计算层面正探索更细粒度的解耦,如MIT CSAIL、DeepSeek Research等提出的“Attention-FFN解耦”框架,将Transformer的注意力模块与前馈层分别放置于不同计算节点,刘譞哲-金鑫团队的MegaScale-Infer系统也已大规模部署 [33][34][35] - “流水线解耦”是另一种自然延伸,如Stanford DAWN的DisPipe、Meta AI的HydraPipe等系统尝试让推理过程以“阶段流”方式流动,实现全局流水线化推理,更适合未来多芯片异构系统 [37][39] - 针对多模态大模型,未来趋势是将推理解耦为多个模态子推理流,再通过调度器进行异步融合;同时,在内存与缓存体系方面,研究如HiKV框架等层级化缓存架构,以实现更具弹性的内存管理 [40][42][43] 迈向模块化智能的长期展望 - “解耦推理”被视为从集中到解耦这一系统演进趋势的起点,是AI走向模块化智能的标志,不同功能模块可独立演化、扩展和优化 [47][48] - 学术界已提出更加大胆的设想,如“解耦学习”,将模型学习过程分为多个相互独立的子任务在不同硬件上运行,被视为解决大模型“灾难性遗忘”与“持续适应”问题的潜在关键路径 [45][46] - 未来可能看到“解耦学习”、“解耦推理”、“解耦认知”三者融合的智能架构体系 [49]
独家|对话Tensormesh三位联创:如何从学术界走到大模型推理产业前线?
Z Potentials· 2025-10-24 16:18
公司概况与融资 - 公司Tensormesh于2025年10月正式亮相,并宣布完成450万美元种子轮融资,由Laude Ventures领投 [2] - 公司致力于为企业提供缓存加速推理优化,是首个将大规模AI推理缓存产品化的商业平台 [2] - 创始团队由芝加哥大学教授Junchen Jiang及其学生Yihua Cheng和Kuntai Du领导,他们也是领先的开源键值缓存项目LMCache的联合创始人 [2] 创业起源与团队构建 - 创业构思始于2024年初,源于创始人意识到AI领域学术界与工业界存在巨大鸿沟,决定将复杂的系统研究转化为可用的产品 [4][22] - 团队组建过程非常顺利,创始教授与两位学生一拍即合,核心驱动力在于学生毕业后能共同创业,拥有归属感和投入感,这被视作教授创业成功的关键因素 [3][12][24] - 团队在博士期间的研究方向从视频分析系统转向大语言模型系统,是系统领域内较早聚焦LLM推理的团队之一 [8][10] 产品与解决方案 - 产品定位为帮助企业一键部署大模型服务的解决方案,核心是打造连接推理引擎与存储服务的桥梁 [4][18][34] - 解决方案针对企业部署大模型的三大痛点:大规模集群部署难度高、集群管理复杂、以及高昂的GPU推理成本 [27][28] - 部署后运行成本仅为公共API的十分之一,并且通过自研核心技术,性能比业界主流方案高出数倍甚至十倍以上 [4][29] 技术优势与行业定位 - 公司专注于大语言模型推理阶段,认为未来99%以上的AI计算负载将发生在推理而非训练阶段 [10] - 技术核心是KV Cache,专注于推理计算和存储之间的桥梁,旨在为快速演化的模型结构与推理方式提供弹性的执行平台 [34][35] - 与行业主流方案不同,其定位是提供非第三方、支持私有部署、能整合推理引擎、存储、调度和路由的全链路整体解决方案 [38] 市场认知与竞争策略 - 认识到推理是一个巨大的产业,不仅AI公司需要,银行、保险等传统行业同样有刚需,且市场会越来越大 [33] - 行业竞争主要来自成熟的第三方API服务及各类推理引擎,但市场缺乏支持私有部署的整体解决方案 [38] - 通过早期与Bloomberg等客户的合作,认识到企业客户更关注实际交付能力和使用体验,而非产品是否开源 [43] 开源与商业战略 - 开源被视为让用户快速用起来的有效途径,但并非最终形态,公司的目标是打造性能最强的开源引擎,并在此基础上构建具有附加价值的闭源产品 [5][40] - 商业策略是开源与闭源并行,通过领先的开源项目赢得用户认可,再通过体验更好的闭源系统实现商业转化 [5][41] - 未来计划将产品打造成大模型部署的首选入口,目标是当人们谈及大模型推理时能第一时间联想到其产品 [44][45] 未来展望与发展计划 - 公司的长期愿景是成为支撑下一代AI应用大规模落地的底层操作系统,并预见AI系统的形态将从“以人为本”转向“人类辅助” [5][51][52] - 除技术产品外,公司认为市场与营销是将技术价值转化为商业营收的关键,同时需要具备前瞻性思维进行战略布局 [46] - 团队建设被视为一切的基础,拥有对的人员和氛围至关重要 [47]