Workflow
大模型优秀大脑齐聚硬核开源聚会,SGLang社区举办国内首次Meetup
机器之心·2025-10-28 14:29

SGLang技术特性与架构 - 开源高性能大语言模型和视觉语言模型推理引擎,起源于RadixAttention,由非营利组织LMSYS孵化[7] - 核心特性包括快速后端Runtime(支持RadixAttention前缀缓存、连续批处理、推测性解码等)、广泛模型支持(兼容多数Hugging Face模型和OpenAI API)、广泛硬件支持(NVIDIA/AMD GPU、Intel Xeon CPU、Google TPU、华为昇腾NPU等)以及灵活的前端语言[14] - 在行业内得到广泛采用,全球范围内为超过30万块GPU提供支持[14] SGLang近期技术进展与路线图 - 技术进展包括KV Cache分层缓存、Piecewise CUDA Graph、Spec Decoding的重叠调度等,实现不同程度的效率和兼容性优化[21] - 未来路线图聚焦于对广泛企业的支持、对各类软硬件的拓展兼容和稳定性[22] - 量化方案近期实现了FP4量化支持,W4AFP8达成实现,未来路线图聚焦扩展应用范围、提升灵活性并引入新型数据格式[34][35] 产学研合作与生态整合 - 清华大学与SGLang合作推进Mooncake高性能分布式KV Cache存储解决方案及KTransformers集成,实现从CPU/GPU混合推理到LoRA微调的全流程开源生态扩展[25][27] - SGLang与趋境科技合作进行HiCache技术整合,通过多层次缓存管理与层页混合内存布局提升多GPU场景内存利用率与推理吞吐性能[25][26] - Slime项目构建公司与开源社区共建共赢的训练生态,实现技术与社区双向循环成长,目标成为世界最好的后训练框架[51] 行业应用实践案例 - 百度搜索架构部在文心4.5模型大规模部署中采用SGLang,应用于LLM推理、蒸馏和RL训练,并进行了特定模型优化、小卡优化和调度优化[41] - 腾讯微信搜一搜业务在LLM应用中采用SGLang实现高吞吐量与低延迟推理,优化首字速度TTFT和生成速度TPOT指标[44] - 华为通过SGLang实现DeepSeek V3.2在NPU上的适配优化,采用MQA+稀疏注意力方案在长序列推理中显著提升性能与资源利用率[47] 社区发展态势 - SGLang在北京举办国内首场Meetup,吸引来自知名公司、学校或组织的社区贡献者、开发者和学者参与,显现旺盛社区活力和发展潜能[4][8] - Meetup活动涵盖技术架构演进与应用实践分享,形成高密度硬核开源社区思想碰撞[10][11] - Specforge开源投机采样模型训练框架已应用于美团、英伟达、Google、蚂蚁等企业大模型优化,与SGLang完全结合开箱即用[57]