动态可调性 - 财报，业绩电话会，研报，新闻

动态可调性

搜索文档

无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention

机器之心· 2025-06-28 12:35

视频生成模型效率瓶颈 - 扩散模型在高质量视频生成任务中已成为主流，但DiT模型中的注意力机制计算量随视频长度和分辨率提升急剧增加，成为推理效率最大瓶颈 [1] - 视频生成中DiT通常使用3D全局注意力建模时空一致性，计算量随token数量呈平方增长，生成8秒720p视频需要接近一小时 [1] - 在HunyuanVideo等模型中，注意力模块计算时间占比超过80% [1] 现有加速方法局限性 - 现有稀疏注意力方法如Sparse VideoGen和AdaSpa在GPU上实现了一定加速，但受限于稀疏度不足和稀疏模式设计刚性，效果不理想 [2] - 这些方法依赖固定稀疏算子，缺乏对输入内容的动态适应能力，难以实现细粒度、内容感知的稀疏模式调控 [2] DraftAttention创新方案 - 研究团队提出无需训练、即插即用的动态稀疏注意力方法DraftAttention，实现高达2倍的GPU端到端推理加速 [3] - 核心思想是通过低分辨率"草图注意力图"估计token重要性，指导高分辨率注意力计算中的稀疏模式选择 [11] - 具体流程包括草图构建、草图注意力计算、稀疏模式引导、Token重排以适配硬件等步骤 [12][13] - 该方法可直接插入现有视频扩散模型如HunyuanVideo和Wan2.1中，无需额外训练或微调 [13] 理论验证 - 使用平均池化构建的Draft Attention Map与原始高分辨率Attention Map之间的差异在Frobenius范数意义下有界 [15] - 从Draft Attention Map提取的稀疏注意力模式影响可被严格界定在可控范围内 [15] 实验结果 - 在HunyuanVideo和Wan2.1模型上测试，DraftAttention在高稀疏率(75%~90%)下能更好保留视频时空一致性和关键结构 [20] - 在H100和A100 GPU上实现最高1.75倍端到端推理加速，加速效果随视频长度、分辨率和稀疏率提升 [22] - PSNR在高分辨率下提升约+2~+3分，SSIM一致性更强，LPIPS感知相似度提升 [21] 未来方向 - 计划结合量化与蒸馏等技术，继续优化长视频生成效率瓶颈，推动高质量视频生成模型走向移动端、边缘端等资源受限场景 [47]