视频扩散模型线性化 - 财报，业绩电话会，研报，新闻

视频扩散模型线性化

搜索文档

10秒视频token超5万，O(n²)跑不动？用后训练线性化框架实现1.71倍加速，推理成本大降｜CVPR'2026

量子位· 2026-03-10 10:13

行业背景与挑战 - 视频生成进入大规模时代，但计算成本高昂，10秒视频的token数超过5万，自注意力机制的计算复杂度为O(n²)，导致模型运行效率低下 [1][2] - 将自注意力替换为线性注意力（O(n)）是理想的解决方案，但在视频扩散模型上直接替换会导致生成质量崩溃 [3] LINVIDEO技术方案概述 - LINVIDEO是一个无需数据、无需重新预训练的后训练框架，旨在实现视频扩散模型的高比例线性化替换，同时保持生成质量 [3] - 该框架解决了视频扩散模型“难线性化”的核心问题，即替换过程敏感，不同注意力层对生成质量的影响不均衡，手工选择替换层易导致性能下降或加速不明显 [7] - 论文已被CVPR接收，在Wan 14B模型上，LINVIDEO实现了1.71倍的端到端加速，结合4步蒸馏后，加速比可达20.9倍，且视频质量几乎无损 [5][6] 技术原理与创新 - 在替换层选择上，LINVIDEO提出选择性迁移，将层选择视为可学习的二分类决策问题，让模型自动、渐进地将部分注意力层迁移到线性形式，以最小化性能损失 [15] - 在优化目标上，LINVIDEO提出任意时刻分布匹配，沿采样轨迹在任意时间步上对齐样本分布，能更有效地将线性化后的模型行为拉回原模型，且无需训练辅助模型，效率更高 [11][15] 实验结果与性能 - 实验在Wan 1.3B和Wan 14B模型上进行系统评测，使用VBench的8个维度及VBench-2.0进行综合评估 [16] - 在Wan 1.3B模型上，LINVIDEO的延迟为68.26秒，实现了1.43倍加速，其各项质量评分（如图像质量、运动平滑度等）与基线FlashAttention2（延迟97.32秒）相当或略有提升 [17] - 在Wan 14B模型上，LINVIDEO的延迟为1127秒，实现了1.71倍加速，质量评分保持稳定；结合DMD2蒸馏后，延迟降至92.56秒，实现20.9倍加速，质量仅有轻微下降 [17][19] - 核心结论：LINVIDEO在保持生成质量的前提下，将视频扩散模型的推理速度提升至更实用的水平，报告了1.43至1.71倍的加速，结合蒸馏后延迟可降低15.9至20.9倍 [19] 总结与意义 - LINVIDEO表明，视频扩散模型线性化的难点不在于线性注意力本身，而在于如何迁移模型并恢复质量 [25] - 该框架通过选择性迁移解决替换层选择的敏感性，通过任意时刻分布匹配解决视频场景对齐的效率问题，推动了视频扩散模型从O(n²)向更可扩展的O(n)推理路径发展 [25]

视频扩散模型线性化

Artificial Intelligence

LINVIDEO

视频扩散模型线性化

Artificial Intelligence

LINVIDEO