实时视频直播 - 财报，业绩电话会，研报，新闻

实时视频直播

搜索文档

MLSys 2026 | StreamDiffusionV2: 将视频生成从「离线生成」带入「实时交互」，实现真正可用的生成式直播系统

机器之心· 2026-03-13 18:41

行业技术背景与挑战 - 基于图片扩散模型的AI直播系统（如StreamDiffusion、StreamV2V）存在时间一致性较差的问题，而视频扩散模型因其前后帧依赖关系能提供极佳的时间一致性 [2] - 近期自回归视频生成研究（如CausVid、Self-Forcing）提升了推理速度，使其吞吐量接近“实时”目标，但现有方法主要面向离线生成优化，难以直接适配对延迟和抖动有严格要求的实时直播场景 [2][7] - 实时视频扩散无法仅依赖离线生成范式的延伸，亟需一种从系统层面重新设计、以实时约束为核心目标的推理架构 [7] 现有系统瓶颈分析 - 现有系统面临四大挑战：1）无法满足实时服务级目标（SLO），首帧延迟高且抖动大；2）长时间生成中因误差累积导致时序漂移和风格漂移；3）面对快速动作时出现模糊、重影和画面撕裂；4）难以实现多GPU扩展，通信开销抵消了计算加速 [11] - 性能瓶颈分析表明，在自回归视频生成的低延迟单帧参数下，由于需要加载长序列的KV Cache，系统性能由内存带宽而非算力主导，处于内存带宽受限状态 [13] - 序列并行方法（如Deepspeed-Ulysses、Ring-Attention）在推理中每个DiT Block需执行一次跨设备通信，引入了显著的通信开销，加剧了系统数据传输负担 [13] StreamDiffusionV2 解决方案 - 研究团队提出一种无需训练、面向交互式直播的流式视频生成系统，旨在实现低延迟与高质量生成的平衡 [2] - 算法层面：引入Sink-tokens和滚动KV Cache机制，将早期生成帧的KV保留以指导后续生成，缓解误差累积；采用动作感知的动态加噪机制，根据视频运动强度自适应调整加噪比例以保持一致性或提升质量 [17][18] - 系统层面：采用SLO感知的流水线化批量去噪，将不同噪音程度的帧组成流水线并行处理；实施模型网络层的流水线并行，结合分片批量去噪与异步通信，以缓解流水线气泡，提升整体吞吐量 [17][19] 系统性能与结果 - 该系统已全面开源，在未应用TensorRT或量化的情况下，于双卡RTX 4090设备上能稳定实现16 FPS实时推理 [3] - 在H100上，系统首帧延迟低于0.5秒；在4卡设备上，14B模型实现58.28 FPS，1.3B模型实现64.52 FPS的吞吐量 [3] - 实验结果显示，系统端到端延迟分布紧密、抖动低，达到亚秒级实时应用要求，同时实现了稳定的高质量生成和良好的时间一致性，并对复杂提示词有更好适应 [26][27] 行业意义与未来展望 - StreamDiffusionV2弥合了离线视频扩散与实时直播之间的系统鸿沟，使高质量生成式直播首次具备工程可行性 [29] - 该工作顺应硬件与算法发展趋势：GPU计算能力增长快于显存带宽，且视频生成算法采用更高压缩率，加剧了推理阶段的内存访问压力，使得围绕内存访问与实时约束进行系统级调度设计成为关键能力 [32][33] - 该系统方案提供了一种面向未来实时生成场景的设计思路，以SLO为核心、系统协同驱动的流式推理架构，有望成为下一阶段生成式直播基础设施的重要方向 [34][35]