核心观点 - 清华大学TSAIL实验室与生数科技联合开源了名为TurboDiffusion的视频生成加速框架,该框架通过四项核心技术,在保证生成质量几乎无损的前提下,实现了视频生成速度的极大提升,最高加速可达200多倍,使单张消费级显卡(如RTX 5090)实现秒级视频生成成为可能 [1][4][12] 技术性能与数据 - 加速效果显著:在单张RTX 5090上,针对1.3B参数、480P分辨率的文生视频模型,生成时间从原始的约184秒缩短至1.9秒,加速约97倍 [1][5] - 支持更大模型与更高分辨率:对于14B参数的图生视频模型,生成720P视频仅需38秒;生成480P视频仅需9.9秒;对于720P文生视频模型,生成时间仅需24秒 [5] - 高质量视频生成加速:在生数科技Vidu模型上,生成1080P分辨率、8秒时长的视频,端到端延迟从900秒大幅降低至8秒 [6] - 提速范围广泛:该框架对不同大小和清晰度的视频模型均能实现有效加速 [6] 核心技术突破 - SageAttention2++:采用低比特量化(INT8/INT4)注意力方案,通过异常值平滑和线程级量化技术,在图像质量几乎不变的情况下,使注意力计算速度提升3–5倍,显存占用减半 [10] - Sparse-Linear Attention (SLA):结合稀疏性与线性复杂度,减少计算量,且能与SageAttention叠加使用,实现额外数倍的加速 [10] - rCM步数蒸馏:采用先进的rCM蒸馏方案,将视频生成所需的迭代步数从几十上百步减少到仅需1-4步,同时保持几乎相同的生成质量 [11] - W8A8量化与自定义算子:对线性层采用权重和激活均为8位的量化,并利用Triton/CUDA重写基础算子,以充分利用硬件算力并消除性能开销 [12] 行业影响与意义 - 降低部署门槛:使消费级显卡上的秒级视频生成成为可能,为个人创作者和中小企业提供了可用工具 [14] - 大幅降低云端成本:推理延迟降低约100倍,意味着同等算力可服务用户数量提升100倍,显著降低了云服务商和SaaS平台的运营成本 [14] - 催生新应用场景:为实时视频编辑、交互式视频生成、AI短剧自动制作等创新产品形态铺平了道路 [14] - 推动国产芯片适配:其低比特、稀疏化、算子定制等技术特性天然适配国产AI芯片架构,有助于中国AI基础设施的自主可控 [14] 技术采纳与生态 - 核心技术的行业地位:SageAttention是全球首个实现注意力计算量化加速的技术方案,已被集成至NVIDIA Tensor RT,并在华为昇腾、摩尔线程S6000等主流GPU平台完成部署 [14] - 广泛的产业应用:腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM等国内外头部科技企业及团队,均已在其核心产品中应用该技术 [15]
单卡2秒生成一个视频,清华联手生数开源TurboDiffusion,视频DeepSeek时刻来了