Mooncake
搜索文档
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
AI前线· 2025-12-12 08:40
文章核心观点 - 大语言模型推理服务正成为企业级应用核心基础设施,其生产级落地的关键在于平衡性能、稳定性与成本 [2] - 为应对模型规模扩张带来的显存压力,LLM推理架构正从单体模式向分布式演进,主流路径包括Prefill-Decode分离、Attention-FFN分离以及KVCache外置 [2] - 在长上下文、高并发、RAG、AI Agent等场景中,KVCache外置已成为保障低延迟、高吞吐与成本效益的必选项 [2] - 通过结合RoleBasedGroup(RBG)编排引擎与Mooncake分布式KVCache存储引擎,可以系统化构建生产级稳定高性能的PD分离推理服务,解决分布式部署复杂性与有状态缓存服务平滑升级等行业难题 [4][5][43] LLM推理架构演进与挑战 - 演进根本动因是模型规模扩张导致的显存压力:在长上下文或高并发场景下,KVCache显存占用常超过70% [2] - 将KVCache解耦外置能突破存储容量瓶颈,并实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力 [2] - 当前生产环境面临五大根本性挑战:快速架构迭代、性能敏感、组件强依赖、运维效率低、资源潮汐显著与利用率不足 [12][15] - 线上流量峰谷差常超过10倍,但静态配置的推理服务GPU平均利用率长期低于30% [15] Mooncake分布式KVCache存储引擎 - Mooncake是业界主流的分布式KVCache存储引擎,为SGLang等推理框架提供高吞吐、低延迟的KVCache分布式服务 [3] - 它是SGLang HiCache(层级缓存)的高性能分布式L3存储后端,通过RDMA实现跨机KVCache共享,突破单机GPU/CPU缓存容量瓶颈 [7] - 核心组件包括:管理集群存储池、元数据与节点生命周期的Master Service,以及提供分布式缓存存储、支持多副本与负载均衡的Store Service [9] RoleBasedGroup(RBG)编排引擎 - RBG是面向大模型推理的Kubernetes原生API,通过多角色协同编排,将Mooncake缓存与SGLang推理节点视为同一服务的不同角色进行统一管理 [4] - 其核心设计理念是将一次推理服务视为拓扑化、有状态、可协同的“角色有机体”,以“角色”作为调度编排的原子单元 [13][14] - RBG提出面向生产环境的SCOPE核心能力框架:稳定(Stable)、协同(Coordination)、可编排(Orchestration)、高性能(Performance)、可演进(Extensible) [14][16][17] RBG的SCOPE核心能力解析 - **稳定**:通过为每个Pod注入全局唯一RoleID,并遵循“最小替换域”原则,确保运维操作在原有硬件拓扑范围内完成,避免拓扑漂移导致的性能抖动 [19] - **协同**:内置声明式协同引擎,精确定义角色间在部署、升级、故障、伸缩时的依赖关系与联动策略 [19][22] - **可编排**:显式定义角色依赖与启动顺序,并提供拓扑自感知的内建服务发现,将完整拓扑信息注入Pod环境,降低集成复杂度 [20] - **高性能**:引入拓扑感知的装箱策略,支持GPU拓扑优先级、角色亲和与反亲和约束、布局均衡性等多维度性能优化 [21][23] - **可演进**:通过声明式API与插件化机制,将角色关系定义与部署管理解耦,可快速适配社区演进的新架构,显著缩短新架构投产周期 [24] 基于RBG部署PD分离架构与Mooncake的实践 - 通过RBG可部署高可用、弹性的SGLang PD分离推理系统,核心角色包括:SGLang Router、Prefill Serving Backend、Decode Serving Backend、Mooncake Master/Store [29][31] - EngineRuntime作为RBG注入的Sidecar,成为推理引擎与上层编排系统的桥梁,提供动态LoRA加载、流量控制等关键运行时能力 [29] - 多轮对话场景Benchmark测试表明,多级缓存架构对性能提升至关重要 [31] 性能提升数据 - **Baseline(仅GPU显存)**:缓存命中率2.22%,平均TTFT 5.91秒,P90 TTFT 12.16秒,InputToken吞吐量6576.85 token/s [32][48] - **启用L2 DRAM HiCache**:命中率提升至40.62%,平均TTFT降至3.77秒(下降36.2%),P90 TTFT降至10.88秒,InputToken吞吐量提升至10054.21 token/s(提升52.89%) [32][48] - **启用L3 Mooncake缓存**:命中率进一步跃升,平均TTFT降至2.58秒(下降56.3%),P90 TTFT大幅改善至6.97秒(下降42.7%),InputToken吞吐量提升至15022.80 token/s(提升49.41%) [32][48] 平滑升级与运维稳定性 - Mooncake作为有状态缓存服务,在传统Kubernetes滚动升级中缓存丢失会导致P99延迟毛刺与系统吞吐量断崖式下跌 [36][40] - 解决方案结合了Mooncake缓存本地持久化功能与RBG的原地升级能力,使得在联合升级过程中KVCache状态得以延续,活跃会话无需回退到Prefill阶段 [36][40] - 原地升级实现了“升级无感、服务不抖”的生产级目标,将有状态缓存服务的平滑演进转化为标准化、可自动化的运维能力 [38][43] 总结与行业意义 - RBG重新定义了LLM推理服务的编排范式,通过多角色协同与拓扑感知调度解决了分布式部署复杂性,并攻克了有状态缓存服务平滑升级的难题 [43][44] - Mooncake作为L3缓存层,通过分布式内存池与RDMA加速,使缓存命中率跃升,显著降低了延迟并提升了吞吐,同时将GPU平均利用率从不足30%提升至可持续弹性伸缩的水平 [44] - 从GPU HBM → DRAM → Mooncake的三级缓存体系被证明是有效的,尤其在多轮对话、RAG、AI Agent等场景中,缓存复用带来的边际成本递减效应将愈发显著 [44] - RBG与Mooncake的协同实践表明,只有将高性能系统设计与云原生运维能力深度融合,才能让大模型推理真正从“能用”走向“好用”,从“实验室”走向“生产级” [43]
2025新一代计算产业大会召开 聚焦算力标准与技术创新
中国新闻网· 2025-09-17 16:59
行业活动与组织 - 2025新一代计算产业大会在北京举行 聚焦算力产业标准化建设与技术创新路径 [1] - 大会由中国电子工业标准化技术协会指导 新一代计算标准工作委员会主办 中科驭数、经开区国家信创园承办 [1] 技术发展与创新 - AI大模型全流程包括数据获取、预处理、训练、微调及推理 多数主体无需涉足全链条 依托开源基础模型开展微调与推理即可实现应用价值 [3] - Mooncake技术通过共享公共存储降低内存消耗 已获华为等企业采用 助力推理成本优化 [3] - KTransformers实现CPU与GPU内存协同 单CPU加单GPU即可运行满血版大模型 为个人AIPC落地铺路 [3] - DPU作为算力底座核心芯片 可承担数据处理、网络转发任务以释放CPU与GPU效能 [3] 标准化建设 - 需高站位谋划、高水平协同和实现高质量应用的新一代计算标准建设工作 [3] - 需增强标准供给 实现标准创新和标准引领 [3] - 当前DPU行业缺乏统一技术规范 制约了规模化应用 亟需通过标准构建破解适配难题 [3] - 大会同步发布《新一代计算标准体系》 宣布成立图形处理器(GPU)、数据处理器(DPU)、计算产品组件、液冷生态、异构计算工作部 [4] - 启动两项服务器电源国家标准编制工作 [4]
想要产品显得“贵气”,搭配就不能基础 | 烘焙“高级感”搭配指南
东京烘焙职业人· 2025-08-26 16:39
核心观点 - 烘焙产品溢价的核心在于"一半基础一半炸裂"的冲突设计 通过原料 体验和故事三个维度实现价值提升 [1][2][29] 原料策略 - 原料是产品溢价的第一语言 Z世代和新中产消费者高度重视成分感知 [2] - 爆款食材需具备稀缺感 标签感和可传播性 如薄荷巧克力 酸汤肥牛 黑松露等趋势食材 [4][5][9] - 同品类溢价可通过食材分级实现 例如芒果蛋糕通过水仙芒 澳芒 贵妃芒的精准应用使价值翻倍 [9][11] - 时令食材提供情绪价值 春季侧重粉嫩轻盈(花朵 青梅) 夏季强调爆汁反差(荔枝 杨梅) 秋季突出丰收感(板栗 南瓜) 冬季主打温润隐奢(黑松露 柑橘) [13][14][18] 多感官体验 - 产品需通过内馅 口感 香气和交互实现多感官体验 超越单纯视觉竞争 [18][19] - 内馅设计追求视觉低调与口感反差的组合 如藏整颗咸鸭蛋或流心的月饼 [20][23] - 口感分层采用"三段打击"理念:3秒入口惊艳 7秒绵密细腻 15秒回味香气 [23] - 香气营销直接驱动消费 80%冲动消费与嗅觉相关 高端门店通过控制出炉时间和空气循环设计香气动线 [25] 场景与传播 - 烘焙产品需绑定场景叙事 同一产品在不同场景(湖畔野餐 屋顶露营 办公下午茶)价值可翻倍 [33][34] - 限定策略是核心溢价武器 节日限定 季节限定和联名限定产品在小红书的数据表现优于普通产品数倍 [31] - 产品需具备天然社交传播属性 通过精致包装 高出片率和独特性激发用户自发种草 [38][39] - 消费者购买的是"精致生活方式" 包含氛围感 社交感和限定感的综合体验 [30][34]
促开放协作与跨界融合 2025CCF中国开源大会在上海召开
中国新闻网· 2025-08-02 21:15
开源技术前沿进展 - 2025CCF中国开源大会在上海开幕,聚焦开源大模型、开源具身智能等关键方向,学术界与产业界专家进行深度交流 [1] - 多位AI与系统软件领域资深专家分享前瞻性观点,涉及大模型、开源硬件与智能操作系统等技术方向 [3] - 清华大学郑纬民团队研发并开源高效推理系统Mooncake与KTransformers,展示系统研究对智能时代工作负载的支撑作用 [3] - 北京大学鄂维南指出AI正经历从"模型中心"向"数据中心"的范式转变,强调构建高质量数据基础设施的重要性 [3] 开源生态建设 - CCF泛在操作系统开放社区成立,由北京大学、中国电子技术标准化研究院等机构共同发起,聚焦技术研究、开源孵化、标准研制等 [4] - 全球计算联盟(GCC)开源社区战略布局启动,CCF-木兰科创开源孵化器发布,华佗开源项目捐赠仪式举行 [3] - Omni-Infer云际开源共创计划正式启动,推动开源生态发展 [3] 产学研合作与人才培养 - 上海交大校长丁奎岭表示开源是推动开放发展的重要路径,大学应成为创新源头 [4] - 上海交大与华为建立"四共"合作新范式,为鸿蒙核心技术攻关提供基础 [5] - 上海交大在国内率先成立开源鸿蒙技术俱乐部,将开源鸿蒙融入课程体系培养领军人才 [5]