Diffusion Transformer

搜索文档
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
AI应用系列报告:AI视频生成:商业化加速,国产厂商表现亮眼
国元证券· 2025-06-27 13:13
报告行业投资评级 - 推荐,维持 [2] 报告的核心观点 - AI视频生成技术从GAN-Transformer-Diffusion Model-DiT演进,推动行业进入可商用阶段,预计2032年全球规模突破184亿人民币,2025至2032年复合增速20% [4] - 行业受价格和模型能力驱动,国产厂商如可灵等表现突出,看好行业发展,建议关注快手和美图公司 [4] 根据相关目录分别进行总结 技术路径:从GAN - Transformer - Diffusion Model - DiT - 20世纪90年代以来,AI视频生成从静态图像序列拼接成视频流开始,历经GAN、Transformer、Diffusion Model到DiT的技术演进,生成内容丰富度和可控性提升 [4][7] - GAN于2014年提出,2016年用于视频生成,存在多样性有限等问题;Transformer于2017年提出,应用于视频生成领域,成本高、速度慢;Diffusion Model由前向和反向过程组成,2020年后在视觉生成领域占主导 [8][15][22] - 2022年DiT架构提出,2024年OpenAI的Sora验证了Diffusion和Transformer结合的有效性,成为核心路线 [8][23] - 快手、可灵、Seedance、腾讯混元等采用DiT架构并进行优化,行业围绕提升效率等目标持续迭代 [30][31] AI视频生成行业:逐步进入可商用阶段,应用及商业化加速 驱动因素:价格和性能共同驱动行业成长 - 全球视频内容流量占比持续攀升,预计2032年AI视频生成全球规模达25.63亿美金,2025 - 2032年复合增速20%,市场营销及广告需求最大,社交媒体应用增长最快 [40] - 价格上,主流模型API单秒价格0.2 - 1元/秒,对比传统视频制作成本有极大替代优势;模型能力上,时长、速度、质量、丰富度等方面不断提升 [4][46][47] 行业应用:B端应用场景多元化,C端内容持续破圈 - 2B应用包括影视内容创作、商业广告等,如电商服装行业和影视短片制作,可解决成本高和周期长的痛点;2C方面,创意玩法拉近与用户距离,内容破圈 [54] 产品及竞争格局:可灵等国产厂商表现突出 - 模型表现上,Seedance1.0、Veo2/3、Kling2.0等居前,国内模型达全球领先水平;商业化上,Runway和可灵表现突出 [58] - 使用量份额上,Kling突出;web端访问量和APP端MAU方面,Sora、Kling等排名靠前 [63] 投资建议及相关标的 快手——可灵产品表现亮眼,商业化加速 - 可灵于2024年6月发布,采用DiT架构并优化,累计迭代超20次,全球用户超2200万,5月访问量达1625万次,美国、中国等为访问量前五国家 [68] - 产品有多种形态和进阶功能,支持视频延长和多图参考,创意特效助力社媒传播;商业化上,营收增速和水平居前列 [74] - 预计2025 - 2027年经调整净利润200.77/246.20/287.21亿元,维持“买入”评级 [70] 美图公司(未覆盖)——AI赋能,与阿里深化合作 - 公司通过自研和采购获取AI模型能力赋能业务,C端产品用户规模领先,AI视频工具Wink月活突破3000万,生产力场景月活用户数增长25.6% [75] - 2024年底全球月活用户数2.66亿,海外用户增长;与阿里签署2.5亿美元可转债协议,将在电商和模型开发领域合作 [75] - 预计2025 - 2027年营业收入42.43/51.69/61.56亿元,归母净利润8.10/10.92/14.58亿元 [76][77]
可媲美GPT-4o的开源图像生成框架来了!腾讯联手InstantX解决角色一致性难题
量子位· 2025-04-23 12:50
InstantCharacter 投稿 量子位 | 公众号 QbitAI GPT-4o带火的漫画风角色生成,现在有了开源版啦! 腾讯混元携手InstantX团队合作打破次元壁,开源 定制化角色生成插件——InstantCharacter 。 以往针对角色驱动的图像生成方法,都存在一定的缺陷。 例如,基于适配器的方案虽然基本实现主体一致和文本可控,但在泛化性、姿势变化和风格转换的开放域角 色方面仍然存在困难。基于微调则需对模型进行重新训练,从而浪费过长的时间。更不必说,费用高昂的推 理时间的微调。 为了更好地适应DiT模型,研究员提出了一种可扩展的 full-transformer适配器 ,它作为角色图像与基础模 型潜在生成空间之间的关键连接,通过增加层深度和隐藏特征尺寸实现可扩展性。 而现在这个插件基于 DiTs(Diffusion Transformers) ,能在保证推理效率和文本可编辑性的同时,完 美实现角色个性化创作。 那么一起看看它具体是如何实现的? 方法介绍 现代 DiTs与传统的UNet架构相比,展现出前所未有的保真度和容量,为生成和编辑任务提供了更强大的基 础。基于此,InstantChara ...