Diffusion Transformer

搜索文档

EasyCache：无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案

机器之心· 2025-07-12 12:50

研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用，显著提升了AI合成视频的质量和连贯性，如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题，例如HunyuanVideo生成5秒720P视频在单张H20上需2小时，限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪，每一步都需完整神经网络前向推理，导致大量冗余计算 [5] 方法创新：EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架，通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理，中后期「变换速率」趋于稳定，行为近似线性，可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制，通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存，前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速，PSNR提升36%至32.66，SSIM提升14%至0.9313，LPIPS大幅下降至0.0533，视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速，PSNR达25.24，SSIM 0.8337，LPIPS 0.0952，优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速，FID降至23.2，CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍，总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致，显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式，为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标，推动数字内容创作和多媒体娱乐行业变革 [27]

Diffusion Models

Diffusion Transformer

Artificial Intelligence

Diffusion Transformer

Artificial Intelligence

EasyCache

HunyuanVideo

Wan2.1

AI应用系列报告：AI视频生成：商业化加速，国产厂商表现亮眼

国元证券· 2025-06-27 13:13

报告行业投资评级 - 推荐，维持 [2] 报告的核心观点 - AI视频生成技术从GAN-Transformer-Diffusion Model-DiT演进，推动行业进入可商用阶段，预计2032年全球规模突破184亿人民币，2025至2032年复合增速20% [4] - 行业受价格和模型能力驱动，国产厂商如可灵等表现突出，看好行业发展，建议关注快手和美图公司 [4] 根据相关目录分别进行总结技术路径：从GAN - Transformer - Diffusion Model - DiT - 20世纪90年代以来，AI视频生成从静态图像序列拼接成视频流开始，历经GAN、Transformer、Diffusion Model到DiT的技术演进，生成内容丰富度和可控性提升 [4][7] - GAN于2014年提出，2016年用于视频生成，存在多样性有限等问题；Transformer于2017年提出，应用于视频生成领域，成本高、速度慢；Diffusion Model由前向和反向过程组成，2020年后在视觉生成领域占主导 [8][15][22] - 2022年DiT架构提出，2024年OpenAI的Sora验证了Diffusion和Transformer结合的有效性，成为核心路线 [8][23] - 快手、可灵、Seedance、腾讯混元等采用DiT架构并进行优化，行业围绕提升效率等目标持续迭代 [30][31] AI视频生成行业：逐步进入可商用阶段，应用及商业化加速驱动因素：价格和性能共同驱动行业成长 - 全球视频内容流量占比持续攀升，预计2032年AI视频生成全球规模达25.63亿美金，2025 - 2032年复合增速20%，市场营销及广告需求最大，社交媒体应用增长最快 [40] - 价格上，主流模型API单秒价格0.2 - 1元/秒，对比传统视频制作成本有极大替代优势；模型能力上，时长、速度、质量、丰富度等方面不断提升 [4][46][47] 行业应用：B端应用场景多元化，C端内容持续破圈 - 2B应用包括影视内容创作、商业广告等，如电商服装行业和影视短片制作，可解决成本高和周期长的痛点；2C方面，创意玩法拉近与用户距离，内容破圈 [54] 产品及竞争格局：可灵等国产厂商表现突出 - 模型表现上，Seedance1.0、Veo2/3、Kling2.0等居前，国内模型达全球领先水平；商业化上，Runway和可灵表现突出 [58] - 使用量份额上，Kling突出；web端访问量和APP端MAU方面，Sora、Kling等排名靠前 [63] 投资建议及相关标的快手——可灵产品表现亮眼，商业化加速 - 可灵于2024年6月发布，采用DiT架构并优化，累计迭代超20次，全球用户超2200万，5月访问量达1625万次，美国、中国等为访问量前五国家 [68] - 产品有多种形态和进阶功能，支持视频延长和多图参考，创意特效助力社媒传播；商业化上，营收增速和水平居前列 [74] - 预计2025 - 2027年经调整净利润200.77/246.20/287.21亿元，维持“买入”评级 [70] 美图公司（未覆盖）——AI赋能，与阿里深化合作 - 公司通过自研和采购获取AI模型能力赋能业务，C端产品用户规模领先，AI视频工具Wink月活突破3000万，生产力场景月活用户数增长25.6% [75] - 2024年底全球月活用户数2.66亿，海外用户增长；与阿里签署2.5亿美元可转债协议，将在电商和模型开发领域合作 [75] - 预计2025 - 2027年营业收入42.43/51.69/61.56亿元，归母净利润8.10/10.92/14.58亿元 [76][77]

AI视频生成

Diffusion Transformer

Diffusion Transformer

可媲美GPT-4o的开源图像生成框架来了！腾讯联手InstantX解决角色一致性难题

量子位· 2025-04-23 12:50

InstantCharacter 投稿量子位 | 公众号 QbitAI GPT-4o带火的漫画风角色生成，现在有了开源版啦！腾讯混元携手InstantX团队合作打破次元壁，开源定制化角色生成插件——InstantCharacter 。以往针对角色驱动的图像生成方法，都存在一定的缺陷。例如，基于适配器的方案虽然基本实现主体一致和文本可控，但在泛化性、姿势变化和风格转换的开放域角色方面仍然存在困难。基于微调则需对模型进行重新训练，从而浪费过长的时间。更不必说，费用高昂的推理时间的微调。为了更好地适应DiT模型，研究员提出了一种可扩展的 full-transformer适配器，它作为角色图像与基础模型潜在生成空间之间的关键连接，通过增加层深度和隐藏特征尺寸实现可扩展性。而现在这个插件基于 DiTs（Diffusion Transformers），能在保证推理效率和文本可编辑性的同时，完美实现角色个性化创作。那么一起看看它具体是如何实现的？方法介绍现代 DiTs与传统的UNet架构相比，展现出前所未有的保真度和容量，为生成和编辑任务提供了更强大的基础。基于此，InstantChara ...

腾讯控股(HK:00700)

角色驱动图像生成

Diffusion Transformers

人工智能

InstantCharacter

角色驱动图像生成

Diffusion Transformers

人工智能

InstantCharacter