LMCache - 财报，业绩电话会，研报，新闻

LMCache

搜索文档

新浪财经· 2025-12-09 21:41

行业技术趋势 - 在大语言模型推理服务中，首令牌时间是一个核心性能指标，直接影响用户体验 [1][15] - 传统推理方案存在重复计算问题，每次处理相同输入文本都需重新计算KV缓存，导致效率低下 [2][17][18] 解决方案与产品 - LMCache提出了一套KV缓存持久化与复用的创新方案，旨在优化首令牌时间 [1][16] - 该方案通过将KV缓存存储在多级介质中实现复用，支持GPU显存、CPU内存、磁盘乃至NIXL分布式存储 [2][6][18][20] - 其核心优势在于支持任意位置文本匹配，而不仅是前缀匹配，从而能更广泛地命中缓存 [2][5][18] - 该方案已与vLLM推理框架深度集成，支持跨设备共享缓存和跨节点传递等生产级特性 [1][7][16][21] 性能表现 - 实测表明，在多轮对话和RAG等高重复率场景下，搭配vLLM使用可使响应速度提升3到10倍 [2][13][18][26] - 缓存读取速度比原生方案快约7倍，同时系统吞吐量也有所提升 [5][19] 应用场景与价值 - 该技术特别适用于聊天机器人和RAG应用，能在不升级硬件的情况下有效降低响应延迟 [8][22] - 对于提示词重复率高的场景，3至10倍的首令牌时间优化具有显著的实际价值 [13][26] 技术生态与部署 - LMCache目前主要绑定vLLM生态，并优先支持Linux操作系统 [14][23][27] - 基本运行要求包括Python 3.9+、NVIDIA V100或H100等GPU以及CUDA 12.8以上版本 [10][24] - 提供多种安装方式，包括pip直接安装、源码编译以及Docker镜像部署 [11][12][25][26] - 对AMD GPU的支持正在完善中，例如MI300X需要特定的ROCm编译参数 [13][26]

英伟达、DeepSeek集体跟进，18个月前被忽视，如今统治AI推理

36氪· 2025-11-10 12:11

文章核心观点 - DistServe提出的“解耦推理”理念在短短一年多时间内从实验室概念发展为行业标准，被NVIDIA、vLLM等主流大模型推理框架采用，预示着AI正迈向“模块化智能”的新时代 [1] - 大模型推理成本的下降速度已远超“摩尔定律”关于计算能力迭代速度的预测，这主要得益于推理系统自身的进化，特别是“解耦推理”架构的实践 [1] - “解耦推理”通过将大模型的“预填充”和“解码”两个阶段拆分为独立的计算资源池，解决了传统“同址部署”方式下的延迟干扰和资源耦合伸缩问题，实现了延迟的独立控制和资源利用率的显著提升 [1][19] 解耦推理的提出与背景 - DistServe系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月推出，其核心创新是首次提出并实践“解耦推理”理念 [1][19] - 在DistServe出现之前，业界标准是采用“同址部署”方式，即在同一块GPU上执行预填充和解码阶段，并依赖“连续批处理”技术 [9] - 传统“同址部署”方式存在两个根本性限制：一是预填充和解码阶段的延迟会相互干扰，大型预填充请求可能使TPOT膨胀2到3倍；二是资源分配器需同时满足两种最坏情况的延迟需求，导致计算资源利用率低下 [11][12][16][17] 解耦推理的优势与行业采纳 - DistServe通过将预填充与解码拆分为独立计算池，彻底打破二者干扰，并首次实现独立伸缩，使其能各自独立满足TTFT和TPOT的延迟要求 [19] - 解耦推理架构在2025年出现逆转性采纳，几乎所有主流大模型推理栈都将其视为默认方案，主要原因包括：企业级应用对延迟控制要求日益严格；模型体量扩大和流量激增需要系统扩展至数百上千张GPU；解耦架构大大增强了系统的可组合性 [22] - 该架构的优势在大规模生产环境中完全显现，可为不同阶段独立分配资源并灵活配合多种并行策略，实现极高的资源利用率 [22] 当前解耦推理的应用生态 - 在编排层，NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一，专为预填充/解码解耦而设计，其他代表还有llm-d、Ray Serve等 [23][25] - 在存储层，Kimi AI团队的MoonCake以“KVCache中心化”为核心思想构建面向解耦的推理平台，芝加哥大学团队的LMCache通过加速KV缓存移动来优化解耦过程，两者已成为大规模LLM推理系统的标准存储后端 [28][29][31] - 在核心引擎层，几乎所有开源的LLM推理引擎，如SGLang与vLLM，都已原生支持“解耦推理” [31] 解耦推理的未来演进方向 - 计算层面正探索更细粒度的解耦，如MIT CSAIL、DeepSeek Research等提出的“Attention-FFN解耦”框架，将Transformer的注意力模块与前馈层分别放置于不同计算节点，刘譞哲-金鑫团队的MegaScale-Infer系统也已大规模部署 [33][34][35] - “流水线解耦”是另一种自然延伸，如Stanford DAWN的DisPipe、Meta AI的HydraPipe等系统尝试让推理过程以“阶段流”方式流动，实现全局流水线化推理，更适合未来多芯片异构系统 [37][39] - 针对多模态大模型，未来趋势是将推理解耦为多个模态子推理流，再通过调度器进行异步融合；同时，在内存与缓存体系方面，研究如HiKV框架等层级化缓存架构，以实现更具弹性的内存管理 [40][42][43] 迈向模块化智能的长期展望 - “解耦推理”被视为从集中到解耦这一系统演进趋势的起点，是AI走向模块化智能的标志，不同功能模块可独立演化、扩展和优化 [47][48] - 学术界已提出更加大胆的设想，如“解耦学习”，将模型学习过程分为多个相互独立的子任务在不同硬件上运行，被视为解决大模型“灾难性遗忘”与“持续适应”问题的潜在关键路径 [45][46] - 未来可能看到“解耦学习”、“解耦推理”、“解耦认知”三者融合的智能架构体系 [49]

独家｜对话Tensormesh三位联创：如何从学术界走到大模型推理产业前线？

Z Potentials· 2025-10-24 16:18

公司概况与融资 - 公司Tensormesh于2025年10月正式亮相，并宣布完成450万美元种子轮融资，由Laude Ventures领投 [2] - 公司致力于为企业提供缓存加速推理优化，是首个将大规模AI推理缓存产品化的商业平台 [2] - 创始团队由芝加哥大学教授Junchen Jiang及其学生Yihua Cheng和Kuntai Du领导，他们也是领先的开源键值缓存项目LMCache的联合创始人 [2] 创业起源与团队构建 - 创业构思始于2024年初，源于创始人意识到AI领域学术界与工业界存在巨大鸿沟，决定将复杂的系统研究转化为可用的产品 [4][22] - 团队组建过程非常顺利，创始教授与两位学生一拍即合，核心驱动力在于学生毕业后能共同创业，拥有归属感和投入感，这被视作教授创业成功的关键因素 [3][12][24] - 团队在博士期间的研究方向从视频分析系统转向大语言模型系统，是系统领域内较早聚焦LLM推理的团队之一 [8][10] 产品与解决方案 - 产品定位为帮助企业一键部署大模型服务的解决方案，核心是打造连接推理引擎与存储服务的桥梁 [4][18][34] - 解决方案针对企业部署大模型的三大痛点：大规模集群部署难度高、集群管理复杂、以及高昂的GPU推理成本 [27][28] - 部署后运行成本仅为公共API的十分之一，并且通过自研核心技术，性能比业界主流方案高出数倍甚至十倍以上 [4][29] 技术优势与行业定位 - 公司专注于大语言模型推理阶段，认为未来99%以上的AI计算负载将发生在推理而非训练阶段 [10] - 技术核心是KV Cache，专注于推理计算和存储之间的桥梁，旨在为快速演化的模型结构与推理方式提供弹性的执行平台 [34][35] - 与行业主流方案不同，其定位是提供非第三方、支持私有部署、能整合推理引擎、存储、调度和路由的全链路整体解决方案 [38] 市场认知与竞争策略 - 认识到推理是一个巨大的产业，不仅AI公司需要，银行、保险等传统行业同样有刚需，且市场会越来越大 [33] - 行业竞争主要来自成熟的第三方API服务及各类推理引擎，但市场缺乏支持私有部署的整体解决方案 [38] - 通过早期与Bloomberg等客户的合作，认识到企业客户更关注实际交付能力和使用体验，而非产品是否开源 [43] 开源与商业战略 - 开源被视为让用户快速用起来的有效途径，但并非最终形态，公司的目标是打造性能最强的开源引擎，并在此基础上构建具有附加价值的闭源产品 [5][40] - 商业策略是开源与闭源并行，通过领先的开源项目赢得用户认可，再通过体验更好的闭源系统实现商业转化 [5][41] - 未来计划将产品打造成大模型部署的首选入口，目标是当人们谈及大模型推理时能第一时间联想到其产品 [44][45] 未来展望与发展计划 - 公司的长期愿景是成为支撑下一代AI应用大规模落地的底层操作系统，并预见AI系统的形态将从“以人为本”转向“人类辅助” [5][51][52] - 除技术产品外，公司认为市场与营销是将技术价值转化为商业营收的关键，同时需要具备前瞻性思维进行战略布局 [46] - 团队建设被视为一切的基础，拥有对的人员和氛围至关重要 [47]

大模型推理

开源与闭源

Artificial Intelligence

Artificial Intelligence

Tensormesh

LMCache