Workflow
RoleBasedGroup (RBG)
icon
搜索文档
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
AI前线· 2025-12-12 08:40
作者 | 玖宇(SGLang 社区 & 阿里云),杨彦波(SGLang 社区 & 科大讯飞),孙伟祥(SGLang 社区 & 小红书),宋阳 (SGLang 社区 & 小红书),雨杨 (Mooncake & 阿里云) 背 景 大语言模型(LLM)推理服务正迅速成为企业级应用的核心基础设施。生产级落地的关键在于性能、稳定性与成本三者的平衡,而本文聚焦于如何构建稳 定的高性能推理系统。 当前,LLM 推理架构正从单体模式向分布式演进,主流路径包括 Prefill-Decode(PD)分离 、 Attention-FFN(AF)分离 以及 KVCache 外置 。这一 演进的根本动因是模型规模扩张导致的显存压力:在长上下文或高并发场景下,KVCache 显存占用常超 70%,单纯依赖 GPU HBM 与 CPU DRAM 已难 以为继。将 KVCache 解耦外置,不仅能突破存储容量瓶颈,更能实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力。尤其在 RAG、AI Agent、长 文本生成等机器驱动消费 Token 的场景中,提示词模板化与可复用性成为常态,外置 KVCache 已成为保障低延迟、高吞吐与成本效益的必 ...