实时视频直播
搜索文档
MLSys 2026 | StreamDiffusionV2: 将视频生成从「离线生成」带入「实时交互」,实现真正可用的生成式直播系统
机器之心· 2026-03-13 18:41
行业技术背景与挑战 - 基于图片扩散模型的AI直播系统(如StreamDiffusion、StreamV2V)存在时间一致性较差的问题,而视频扩散模型因其前后帧依赖关系能提供极佳的时间一致性 [2] - 近期自回归视频生成研究(如CausVid、Self-Forcing)提升了推理速度,使其吞吐量接近“实时”目标,但现有方法主要面向离线生成优化,难以直接适配对延迟和抖动有严格要求的实时直播场景 [2][7] - 实时视频扩散无法仅依赖离线生成范式的延伸,亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构 [7] 现有系统瓶颈分析 - 现有系统面临四大挑战:1)无法满足实时服务级目标(SLO),首帧延迟高且抖动大;2)长时间生成中因误差累积导致时序漂移和风格漂移;3)面对快速动作时出现模糊、重影和画面撕裂;4)难以实现多GPU扩展,通信开销抵消了计算加速 [11] - 性能瓶颈分析表明,在自回归视频生成的低延迟单帧参数下,由于需要加载长序列的KV Cache,系统性能由内存带宽而非算力主导,处于内存带宽受限状态 [13] - 序列并行方法(如Deepspeed-Ulysses、Ring-Attention)在推理中每个DiT Block需执行一次跨设备通信,引入了显著的通信开销,加剧了系统数据传输负担 [13] StreamDiffusionV2 解决方案 - 研究团队提出一种无需训练、面向交互式直播的流式视频生成系统,旨在实现低延迟与高质量生成的平衡 [2] - 算法层面:引入Sink-tokens和滚动KV Cache机制,将早期生成帧的KV保留以指导后续生成,缓解误差累积;采用动作感知的动态加噪机制,根据视频运动强度自适应调整加噪比例以保持一致性或提升质量 [17][18] - 系统层面:采用SLO感知的流水线化批量去噪,将不同噪音程度的帧组成流水线并行处理;实施模型网络层的流水线并行,结合分片批量去噪与异步通信,以缓解流水线气泡,提升整体吞吐量 [17][19] 系统性能与结果 - 该系统已全面开源,在未应用TensorRT或量化的情况下,于双卡RTX 4090设备上能稳定实现16 FPS实时推理 [3] - 在H100上,系统首帧延迟低于0.5秒;在4卡设备上,14B模型实现58.28 FPS,1.3B模型实现64.52 FPS的吞吐量 [3] - 实验结果显示,系统端到端延迟分布紧密、抖动低,达到亚秒级实时应用要求,同时实现了稳定的高质量生成和良好的时间一致性,并对复杂提示词有更好适应 [26][27] 行业意义与未来展望 - StreamDiffusionV2弥合了离线视频扩散与实时直播之间的系统鸿沟,使高质量生成式直播首次具备工程可行性 [29] - 该工作顺应硬件与算法发展趋势:GPU计算能力增长快于显存带宽,且视频生成算法采用更高压缩率,加剧了推理阶段的内存访问压力,使得围绕内存访问与实时约束进行系统级调度设计成为关键能力 [32][33] - 该系统方案提供了一种面向未来实时生成场景的设计思路,以SLO为核心、系统协同驱动的流式推理架构,有望成为下一阶段生成式直播基础设施的重要方向 [34][35]