SGLang原生支持昇腾,新模型一键拉起无需改代码
量子位·2025-12-21 22:13

文章核心观点 - 随着智能体(Agent)在应用侧加速落地,大模型推理系统在真实负载下面临高并发、长上下文、多轮推理等严峻的工程挑战,行业焦点正转向如何构建能够承受这些负载的稳健推理系统 [1][4] - SGLang AI金融π对活动集中展示了从缓存内存体系、权重更新、强化学习效率到算力模型生态协同的清晰推理工程演进路径,昇腾算力平台已深度融入此开源生态,成为主流推理工作流的默认后端之一 [5][25][47] - 昇腾通过与SGLang开源社区的深度共建,实现了对DeepSeek、Qwen、GLM、Kimi等主流模型的快速适配与性能优化,其核心理念是尽量不动模型层,仅在底层完成硬件亲和与性能提升,相关能力已进入真实生产环境验证 [24][41][46] 面向Agent的推理系统工程挑战与解法 - 核心挑战:Agent应用对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求,金融Agent场景对低延迟、响应稳定性、一致性及成本控制的要求更为严苛 [8][9] - HiCache体系:针对高并发、长上下文下KV cache重复计算和显存需求大的问题,通过将KV cache扩展到CPU和远端存储,由Cache Controller自动管理,并结合流水线化异步预取,显著降低显存占用,提升推理稳定性与吞吐 [11] - 混合模型支持:针对Qwen3-Next、Kimi Linear等混合模型,通过Mamba Radix Tree实现前缀统一管理,并借助Elastic Memory Pool弹性调度KV Cache与Mamba State,提供高效推理和显存优化能力 [13] - 强化学习权重更新:针对强化学习中策略权重频繁更新导致的GPU空转和冷启动耗时问题,Mooncake基于Transfer Engine,采用异步预读和pipeline并行设计,显著压缩权重加载和模型启动时间 [14][15] - 实测效果:Kimi K2万亿参数模型的权重更新准备时间被压缩至20秒以内,63B模型的冷启动时间从85秒降至9秒 [17] - 强化学习长尾请求:针对强化学习rollout过程异步、多阶段、长度不可预测导致的长尾请求问题,通过Server化+全异步执行、oversample与partial rollout机制控制长尾请求,大幅缓解训练效率瓶颈 [18][19] - MoE模型优化:针对DeepSeek、GLM-4.5等MoE模型的fuse MoE、内存调度和负载均衡问题,持续重构执行路径与内存管理机制,Slime强化学习系统则针对大规模GRPO与多阶段RL训练定制,实现训练与推理的深度协同 [20][21] 昇腾平台与SGLang的协同进展 - 生态角色转变:昇腾已作为主流推理工作流中的后端之一,被自然纳入系统设计与工程实现,HiCache、Mooncake等系统能力均能在昇腾平台上直接运行并进入实际推理流程 [24][25] - DeepSeek V3.2性能:实现了对DeepSeek V3.2的Day 0支持,在PD分离、64K输入、3K输出场景下,推理吞吐达15 TPS/卡,TTFT约4秒,PD传输(HCCS)< 8ms,TPOT ≈ 20毫秒 [29] - 系统层优化:通过负载均衡重新分配计算任务、融合算子减少内存访问与Kernel开销、多流并行提升计算资源利用率、在Cube计算路径中引入权重预取机制实现数据搬运与计算重叠,最终实现高吞吐、低延迟、资源高效利用 [30][31][32][33] - 模型适配与优化:针对DeepSeek、Qwen系列等开源模型进行适配与性能提升,支持稠密、稀疏、多模态架构,并支持Flux、Qwen-Image等多模态生成模型 [34] - 对Qwen的优化包括通用能力增强(图模式、W8A8量化、EAGLE3)以及昇腾亲和性专项优化,如利用多流并行,在大EP场景中通过Dispatch/Combine流程融合处理GMM计算 [36] - 广泛的模型覆盖:除DeepSeek、Qwen外,在昇腾硬件上也已覆盖Kimi、LongChat等模型,新模型可在不改代码的前提下直接运行,所有代码均已合入SGLang主社区仓,开发者无需额外安装插件 [39][40] - 深度共建架构:昇腾相关优化已下沉到SGL-kernel-NPU算子库集中维护,Engine层支持EPLB、Graph Runner与MTP以覆盖多硬件后端,缓存与通信依托HiCache,底层SGL-kernel-NPU承载加速算子、量化算子及传输接口,实现开源能力与昇腾性能的双向赋能 [44][45] 昇腾的开源战略与未来方向 - 全面拥抱开源:昇腾于今年七月份正式启动与SGLang的适配工作,目标明确为全面拥抱开源、加速生态建设,在5个多月内补齐了多类主流模型的推理支持,覆盖强化学习训练、多模态等关键场景,并将SGLang on Ascend的整体性能推至“可打”水平 [46] - 进入生产验证:昇腾已基于SGLang在真实业务场景中对DeepSeek V3.2完成了灰度测试,意味着相关能力已进入真实生产环境的验证周期 [46] - 未来演进方向:明确围绕“推理系统”展开系统性工程投入,一方面通过Zero Buffer、昇腾亲和加速库等机制持续压榨单机与多机推理吞吐;另一方面在基础软件层构建昇腾版Triton生态,与SGLang、vllm等开源引擎保持接口与演进节奏对齐 [47] - 定位根本转变:昇腾不再只是“能否支持某个模型”的硬件选项,而是开始以推理系统为核心,被纳入开源工程的主线讨论与默认方案评估之中,行业问题从“能不能跑”转向“系统能不能长期、规模化、稳定地跑” [47]