Workflow
SGLang Diffusion
icon
搜索文档
SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
机器之心· 2025-11-21 18:17
产品发布与核心能力 - SGLang推理框架将其高性能调度与内核优化从大语言模型扩展至图像与视频扩散模型,推出SGLang Diffusion [2] - 相较于先前的视频和图像生成框架,新框架在多种工作负载上实现最高57%的推理加速 [2][3] - 框架支持主流开源视频和图像生成模型,包括Wan系列、Hunyuan、Qwen-Image、Qwen-Image-Edit、FLUX等 [2] 技术架构与创新 - 采用ComposedPipelineBase架构,将扩散推理过程拆分为可复用的Stage(如DenoisingStage、DecodingStage),实现组件化、可复用和可扩展的流水线构建 [11][12] - 引入先进并行技术以追求极致性能,包括USP(Unified Sequence Parallelism)、CFG-Parallel和Tensor Parallel等 [12] - 底层仍由sgl-kernel承载,为未来引入量化等高性能内核提供了天然扩展位 [12] - 设计专用的生成调度器,针对图像/视频生成的“多步迭代去噪”特性进行任务编排管理,以替代LLM的Token级调度逻辑 [16] 用户体验与生态整合 - 提供多种接口以降低使用门槛,包括OpenAI兼容API、CLI和Python接口 [4][14] - 对于已有基于OpenAI API的应用,引入SGLang Diffusion几乎是“零改动”级别,便于集成到现有工作流 [14] - 与FastVideo团队合作,打造从模型训练到生产部署的端到端解决方案 [5] 性能表现与基准测试 - 对比Huggingface Diffusers等开源基线,SGLang Diffusion在H100 GPU上实现了显著的性能提升 [29] - 多种并行方案(如CFG并行和USP)相比单GPU设置展现了显著加速 [29] 战略定位与未来规划 - SGLang Diffusion旨在成为面向未来的高性能多模态统一推理底座,以支撑自回归(AR)与扩散(Diffusion)的混合架构新时代 [8][9] - 未来规划包括持续优化现有模型支持、新增模型支持、引入量化内核、集成Flash Attention 4、加强Batching支持以及简化新模型接入流程等 [34][36]