SGLang原生支持昇腾，新模型一键拉起无需改代码

文章核心观点 - 随着智能体（Agent）在应用侧加速落地，大模型推理系统在真实负载下面临高并发、长上下文、多轮推理等严峻的工程挑战，行业焦点正转向如何构建能够承受这些负载的稳健推理系统 [1][4] - SGLang AI金融π对活动集中展示了从缓存内存体系、权重更新、强化学习效率到算力模型生态协同的清晰推理工程演进路径，昇腾算力平台已深度融入此开源生态，成为主流推理工作流的默认后端之一 [5][25][47] - 昇腾通过与SGLang开源社区的深度共建，实现了对DeepSeek、Qwen、GLM、Kimi等主流模型的快速适配与性能优化，其核心理念是尽量不动模型层，仅在底层完成硬件亲和与性能提升，相关能力已进入真实生产环境验证 [24][41][46] 面向Agent的推理系统工程挑战与解法 - 核心挑战：Agent应用对高并发请求、长上下文窗口、多轮推理和内存管理的效率提出了更高要求，金融Agent场景对低延迟、响应稳定性、一致性及成本控制的要求更为严苛 [8][9] - HiCache体系：针对高并发、长上下文下KV cache重复计算和显存需求大的问题，通过将KV cache扩展到CPU和远端存储，由Cache Controller自动管理，并结合流水线化异步预取，显著降低显存占用，提升推理稳定性与吞吐 [11] - 混合模型支持：针对Qwen3-Next、Kimi Linear等混合模型，通过Mamba Radix Tree实现前缀统一管理，并借助Elastic Memory Pool弹性调度KV Cache与Mamba State，提供高效推理和显存优化能力 [13] - 强化学习权重更新：针对强化学习中策略权重频繁更新导致的GPU空转和冷启动耗时问题，Mooncake基于Transfer Engine，采用异步预读和pipeline并行设计，显著压缩权重加载和模型启动时间 [14][15] - 实测效果：Kimi K2万亿参数模型的权重更新准备时间被压缩至20秒以内，63B模型的冷启动时间从85秒降至9秒 [17] - 强化学习长尾请求：针对强化学习rollout过程异步、多阶段、长度不可预测导致的长尾请求问题，通过Server化+全异步执行、oversample与partial rollout机制控制长尾请求，大幅缓解训练效率瓶颈 [18][19] - MoE模型优化：针对DeepSeek、GLM-4.5等MoE模型的fuse MoE、内存调度和负载均衡问题，持续重构执行路径与内存管理机制，Slime强化学习系统则针对大规模GRPO与多阶段RL训练定制，实现训练与推理的深度协同 [20][21] 昇腾平台与SGLang的协同进展 - 生态角色转变：昇腾已作为主流推理工作流中的后端之一，被自然纳入系统设计与工程实现，HiCache、Mooncake等系统能力均能在昇腾平台上直接运行并进入实际推理流程 [24][25] - DeepSeek V3.2性能：实现了对DeepSeek V3.2的Day 0支持，在PD分离、64K输入、3K输出场景下，推理吞吐达15 TPS/卡，TTFT约4秒，PD传输（HCCS）< 8ms，TPOT ≈ 20毫秒 [29] - 系统层优化：通过负载均衡重新分配计算任务、融合算子减少内存访问与Kernel开销、多流并行提升计算资源利用率、在Cube计算路径中引入权重预取机制实现数据搬运与计算重叠，最终实现高吞吐、低延迟、资源高效利用 [30][31][32][33] - 模型适配与优化：针对DeepSeek、Qwen系列等开源模型进行适配与性能提升，支持稠密、稀疏、多模态架构，并支持Flux、Qwen-Image等多模态生成模型 [34] - 对Qwen的优化包括通用能力增强（图模式、W8A8量化、EAGLE3）以及昇腾亲和性专项优化，如利用多流并行，在大EP场景中通过Dispatch/Combine流程融合处理GMM计算 [36] - 广泛的模型覆盖：除DeepSeek、Qwen外，在昇腾硬件上也已覆盖Kimi、LongChat等模型，新模型可在不改代码的前提下直接运行，所有代码均已合入SGLang主社区仓，开发者无需额外安装插件 [39][40] - 深度共建架构：昇腾相关优化已下沉到SGL-kernel-NPU算子库集中维护，Engine层支持EPLB、Graph Runner与MTP以覆盖多硬件后端，缓存与通信依托HiCache，底层SGL-kernel-NPU承载加速算子、量化算子及传输接口，实现开源能力与昇腾性能的双向赋能 [44][45] 昇腾的开源战略与未来方向 - 全面拥抱开源：昇腾于今年七月份正式启动与SGLang的适配工作，目标明确为全面拥抱开源、加速生态建设，在5个多月内补齐了多类主流模型的推理支持，覆盖强化学习训练、多模态等关键场景，并将SGLang on Ascend的整体性能推至“可打”水平 [46] - 进入生产验证：昇腾已基于SGLang在真实业务场景中对DeepSeek V3.2完成了灰度测试，意味着相关能力已进入真实生产环境的验证周期 [46] - 未来演进方向：明确围绕“推理系统”展开系统性工程投入，一方面通过Zero Buffer、昇腾亲和加速库等机制持续压榨单机与多机推理吞吐；另一方面在基础软件层构建昇腾版Triton生态，与SGLang、vllm等开源引擎保持接口与演进节奏对齐 [47] - 定位根本转变：昇腾不再只是“能否支持某个模型”的硬件选项，而是开始以推理系统为核心，被纳入开源工程的主线讨论与默认方案评估之中，行业问题从“能不能跑”转向“系统能不能长期、规模化、稳定地跑” [47]