DistServe系统
搜索文档
英伟达、DeepSeek集体跟进,18个月前被忽视,如今统治AI推理
36氪· 2025-11-10 12:11
文章核心观点 - DistServe提出的“解耦推理”理念在短短一年多时间内从实验室概念发展为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向“模块化智能”的新时代 [1] - 大模型推理成本的下降速度已远超“摩尔定律”关于计算能力迭代速度的预测,这主要得益于推理系统自身的进化,特别是“解耦推理”架构的实践 [1] - “解耦推理”通过将大模型的“预填充”和“解码”两个阶段拆分为独立的计算资源池,解决了传统“同址部署”方式下的延迟干扰和资源耦合伸缩问题,实现了延迟的独立控制和资源利用率的显著提升 [1][19] 解耦推理的提出与背景 - DistServe系统由北京大学、加州大学圣地亚哥分校等机构于2024年3月推出,其核心创新是首次提出并实践“解耦推理”理念 [1][19] - 在DistServe出现之前,业界标准是采用“同址部署”方式,即在同一块GPU上执行预填充和解码阶段,并依赖“连续批处理”技术 [9] - 传统“同址部署”方式存在两个根本性限制:一是预填充和解码阶段的延迟会相互干扰,大型预填充请求可能使TPOT膨胀2到3倍;二是资源分配器需同时满足两种最坏情况的延迟需求,导致计算资源利用率低下 [11][12][16][17] 解耦推理的优势与行业采纳 - DistServe通过将预填充与解码拆分为独立计算池,彻底打破二者干扰,并首次实现独立伸缩,使其能各自独立满足TTFT和TPOT的延迟要求 [19] - 解耦推理架构在2025年出现逆转性采纳,几乎所有主流大模型推理栈都将其视为默认方案,主要原因包括:企业级应用对延迟控制要求日益严格;模型体量扩大和流量激增需要系统扩展至数百上千张GPU;解耦架构大大增强了系统的可组合性 [22] - 该架构的优势在大规模生产环境中完全显现,可为不同阶段独立分配资源并灵活配合多种并行策略,实现极高的资源利用率 [22] 当前解耦推理的应用生态 - 在编排层,NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为预填充/解码解耦而设计,其他代表还有llm-d、Ray Serve等 [23][25] - 在存储层,Kimi AI团队的MoonCake以“KVCache中心化”为核心思想构建面向解耦的推理平台,芝加哥大学团队的LMCache通过加速KV缓存移动来优化解耦过程,两者已成为大规模LLM推理系统的标准存储后端 [28][29][31] - 在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持“解耦推理” [31] 解耦推理的未来演进方向 - 计算层面正探索更细粒度的解耦,如MIT CSAIL、DeepSeek Research等提出的“Attention-FFN解耦”框架,将Transformer的注意力模块与前馈层分别放置于不同计算节点,刘譞哲-金鑫团队的MegaScale-Infer系统也已大规模部署 [33][34][35] - “流水线解耦”是另一种自然延伸,如Stanford DAWN的DisPipe、Meta AI的HydraPipe等系统尝试让推理过程以“阶段流”方式流动,实现全局流水线化推理,更适合未来多芯片异构系统 [37][39] - 针对多模态大模型,未来趋势是将推理解耦为多个模态子推理流,再通过调度器进行异步融合;同时,在内存与缓存体系方面,研究如HiKV框架等层级化缓存架构,以实现更具弹性的内存管理 [40][42][43] 迈向模块化智能的长期展望 - “解耦推理”被视为从集中到解耦这一系统演进趋势的起点,是AI走向模块化智能的标志,不同功能模块可独立演化、扩展和优化 [47][48] - 学术界已提出更加大胆的设想,如“解耦学习”,将模型学习过程分为多个相互独立的子任务在不同硬件上运行,被视为解决大模型“灾难性遗忘”与“持续适应”问题的潜在关键路径 [45][46] - 未来可能看到“解耦学习”、“解耦推理”、“解耦认知”三者融合的智能架构体系 [49]