扩散模型视频加速 - 财报，业绩电话会，研报，新闻

扩散模型视频加速

搜索文档

视频生成DeepSeek时刻！清华&生数开源框架提速200倍，一周斩获2k Star

机器之心· 2025-12-26 12:35

核心观点 - 清华大学TSAIL团队与生数科技联合发布的TurboDiffusion加速框架，将AI视频生成从“分钟级等待”带入“秒级实时”时代，实现了高达200倍的推理加速，是行业发展的关键转折点[1][3][52] 技术突破与核心优势 - **加速效果显著**：在单张RTX 5090显卡上，主流视频生成模型的推理速度得到百倍提升，例如将14B模型生成5秒720p视频的时间从4767秒缩短至24秒，加速近200倍[1][26][43]；将1.3B模型生成5秒480p视频的时间从184秒缩短至1.9秒，加速97倍[39][40] - **攻克核心瓶颈**：该框架成功击破了扩散模型生成高质量视频面临的主要壁垒——高推理延迟，通过系统性优化解决了处理海量时空token导致的耗时问题[7] - **四大核心技术驱动**：通过混合注意力加速、高效步数蒸馏、W8A8线性层量化以及训练阶段的并行策略协同作用，实现加速[13][21] - **混合注意力加速**：结合SageAttention（低比特量化注意力）与Sparse-Linear Attention（稀疏线性注意力），两者正交叠加可获得数倍额外加速[14][17][19] - **高效步数蒸馏**：引入rCM蒸馏方法，将采样步数从100步大幅减少至3-4步，同时保持视频质量[20] - **W8A8线性层量化**：对模型权重和激活值进行8-bit分块量化，将模型大小压缩约一半，并利用INT8 Tensor Cores加速计算[21] - **训练优化策略**：采用并行训练，将预训练模型的全注意力替换为SLA进行微调，同时使用rCM进行蒸馏，最后合并参数，以平衡推理效率与生成质量[22] 实际应用与性能表现 - **支持多种模型**：框架已支持包括TurboWan2.2-I2V-A14B-720P、TurboWan2.1-T2V-14B-720P等多个文生视频、图生视频模型版本，提供480p至720p的最佳分辨率[8][9] - **图生视频加速**：在14B模型生成5秒720p视频的任务中，实现了几乎无损的端到端119倍加速[31] - **文生视频加速**：在14B模型生成5秒720p视频的任务中，实现几乎无损的端到端200倍加速[43] - **商业模型集成验证**：在生数科技自研的Vidu模型上，生成8秒1080p视频的延迟从900秒提速到8秒，且不损失生成质量[47][48] 行业影响与产业落地 - **开启新范式**：标志着AI视频创作从“渲染与等待”模式向“实时生成”时代转变的关键节点[3][52] - **降低算力门槛**：使高端视频创作能力从昂贵的H100等专业显卡下沉到RTX 5090等消费级显卡，极大降低了个人创作者的算力门槛[52] - **技术广泛部署**：核心组件SageAttention作为全球首个注意力计算量化加速方案，已被工业界大规模部署，集成至NVIDIA Tensor RT，并落地于华为昇腾、摩尔线程等主流GPU平台[27] - **头部企业应用**：腾讯混元、字节豆包、阿里Tora、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤等国内外科技公司已在核心产品中应用相关技术，创造了可观经济效益[27] - **未来应用场景**：为AI视频直播、个性化视频流、AR/VR实时内容渲染等需要即时反馈的应用场景的落地铺平了道路[52]

AI视频生成

扩散模型视频加速

Artificial Intelligence

Artificial Intelligence

TurboDiffusion

SageAttention