Workflow
视频扩散模型线性化
icon
搜索文档
10秒视频token超5万,O(n²)跑不动?用后训练线性化框架实现1.71倍加速,推理成本大降|CVPR'2026
量子位· 2026-03-10 10:13
行业背景与挑战 - 视频生成进入大规模时代,但计算成本高昂,10秒视频的token数超过5万,自注意力机制的计算复杂度为O(n²),导致模型运行效率低下 [1][2] - 将自注意力替换为线性注意力(O(n))是理想的解决方案,但在视频扩散模型上直接替换会导致生成质量崩溃 [3] LINVIDEO技术方案概述 - LINVIDEO是一个无需数据、无需重新预训练的后训练框架,旨在实现视频扩散模型的高比例线性化替换,同时保持生成质量 [3] - 该框架解决了视频扩散模型“难线性化”的核心问题,即替换过程敏感,不同注意力层对生成质量的影响不均衡,手工选择替换层易导致性能下降或加速不明显 [7] - 论文已被CVPR接收,在Wan 14B模型上,LINVIDEO实现了1.71倍的端到端加速,结合4步蒸馏后,加速比可达20.9倍,且视频质量几乎无损 [5][6] 技术原理与创新 - 在替换层选择上,LINVIDEO提出选择性迁移,将层选择视为可学习的二分类决策问题,让模型自动、渐进地将部分注意力层迁移到线性形式,以最小化性能损失 [15] - 在优化目标上,LINVIDEO提出任意时刻分布匹配,沿采样轨迹在任意时间步上对齐样本分布,能更有效地将线性化后的模型行为拉回原模型,且无需训练辅助模型,效率更高 [11][15] 实验结果与性能 - 实验在Wan 1.3B和Wan 14B模型上进行系统评测,使用VBench的8个维度及VBench-2.0进行综合评估 [16] - 在Wan 1.3B模型上,LINVIDEO的延迟为68.26秒,实现了1.43倍加速,其各项质量评分(如图像质量、运动平滑度等)与基线FlashAttention2(延迟97.32秒)相当或略有提升 [17] - 在Wan 14B模型上,LINVIDEO的延迟为1127秒,实现了1.71倍加速,质量评分保持稳定;结合DMD2蒸馏后,延迟降至92.56秒,实现20.9倍加速,质量仅有轻微下降 [17][19] - 核心结论:LINVIDEO在保持生成质量的前提下,将视频扩散模型的推理速度提升至更实用的水平,报告了1.43至1.71倍的加速,结合蒸馏后延迟可降低15.9至20.9倍 [19] 总结与意义 - LINVIDEO表明,视频扩散模型线性化的难点不在于线性注意力本身,而在于如何迁移模型并恢复质量 [25] - 该框架通过选择性迁移解决替换层选择的敏感性,通过任意时刻分布匹配解决视频场景对齐的效率问题,推动了视频扩散模型从O(n²)向更可扩展的O(n)推理路径发展 [25]