单卡2秒生成一个视频!清华联手生数开源TurboDiffusion,视频DeepSeek时刻来了
量子位·2025-12-25 19:51

核心观点 - 清华大学TSAIL实验室与生数科技联合开源了视频生成加速框架TurboDiffusion,该框架能在保证生成质量几乎无损的前提下,将视频生成速度最高提升200多倍,使单张高端显卡实现秒级视频生成成为可能,标志着视频生成进入实时交互时代 [3][8][34][39] 技术性能与数据 - 加速效果显著:在单张RTX 5090上,针对1.3B-480P的文生视频模型,生成时间从原始的184秒缩短至1.9秒,提速约97倍 [2][3][12][13] - 支持大模型与高分辨率:对于14B-720P的图生视频模型,生成时间仅需38秒;720P文生视频模型仅需24秒;14B-480P图生视频模型仅需9.9秒 [12][15] - 高质量无损加速:在生数科技Vidu模型上,生成1080P分辨率、8秒时长视频时,端到端延迟从900秒提速到8秒,且动态流畅度、光影质感及指令遵循能力保持极高水准 [16] 核心技术原理 - SageAttention(低比特量化注意力):将权重和激活值压缩至INT8/INT4,通过异常值平滑等技术避免精度崩塌,使注意力计算速度提升3–5倍,显存占用减半 [24][25][26][27] - Sparse-Linear Attention (SLA):结合稀疏性与线性复杂度,减少计算量,且可与SageAttention叠加使用,实现额外数倍加速 [28][29] - rCM步数蒸馏:通过Score-regularized Continuous-time Consistency Models减少传统扩散模型所需的迭代去噪步数 [30][31] - W8A8量化与自定义算子:对线性层采用权重与激活均为8位的量化,并利用Triton/CUDA重写基础算子以消除性能开销 [32][33] - 技术协同:四项技术环环相扣,通过蒸馏减步数、量化减负载、SLA和SageAttention减算力,共同实现极限加速 [34] 行业影响与意义 - 降低使用门槛与成本:单张消费级显卡(如RTX 5090)即可实现秒级出片,使个人创作者与中小企业可用;云端推理延迟降低百倍,同等算力可服务用户数提升百倍,大幅降低运营成本 [42] - 推动产品创新与场景拓展:实时视频编辑、交互式视频生成、AI短剧自动制作等新场景成为可能,催生全新AIGC产品形态 [42] - 技术自主与产业落地:核心技术由清华大学与生数科技自主研发,SageAttention为全球首个注意力计算量化加速方案,已集成至NVIDIA TensorRT,并完成在华为昇腾、摩尔线程等国产芯片平台的部署,助力AI基础设施自主可控 [37][38][42] - 获得行业认可:技术已被腾讯混元、字节豆包、阿里、百度、Google、商汤等国内外头部科技企业应用于核心产品,创造了可观经济效益 [38]