EasyCache
搜索文档
无需训练的3D生成加速新思路:西湖大学提出Fast3Dcache
量子位· 2025-12-04 13:57
3D AIGC行业技术瓶颈与解决方案 - 在AIGC浪潮中,3D生成模型(如TRELLIS)进化迅速,但“慢”与“计算量大”是制约其大规模应用的最大痛点,生成高质量3D资产往往需要漫长等待 [1] - 为加速3D生成,业界曾尝试引入2D视频生成中的“缓存”技术,但在3D领域直接应用会失败,因为3D结构对误差极为敏感,微小误差可导致模型破洞、面片错位甚至结构崩塌 [1] Fast3Dcache技术核心与原理 - 西湖大学AGI实验室提出的Fast3Dcache是一种无需训练、即插即用的几何感知加速框架,能在大幅提升速度的同时,完美保持甚至提升模型的几何质量 [2] - 其核心洞察源于对3D几何生成过程的解剖,发现体素在扩散模型去噪过程中呈现“三阶段稳定模式”:剧烈震荡期、对数线性衰减期和精细调整期 [4] - 基于此观察,Fast3Dcache设计了两大核心模块:PCSC模块通过早期校准预测“衰减曲线”,动态分配每一步的计算预算;SSC模块通过分析潜空间中特征的速度和加速度,智能决定复用或重新计算哪些特征 [6][7][9] - 这种基于时空动力学的筛选机制,比传统仅看数值相似度的方法更可靠,彻底解决了3D结构断裂的问题 [8] Fast3Dcache性能表现与数据 - 在TRELLIS和DSO框架上的测试显示,Fast3Dcache在保证几何质量的前提下,显著提升了推理吞吐量并减少了计算量 [10] - 具体数据:在TRELLIS框架下,当参数τ=8时,模型提速27.12%,计算量(FLOPs)降低54.83% [10][11] - 该技术具有正交性,可与现有视频/图像加速算法无缝叠加,实现更显著的加速效果:Fast3Dcache + TeaCache推理速度达原来的3.41倍;Fast3Dcache + EasyCache推理速度提升至原来的10.33倍 [11][13] 技术影响与行业意义 - Fast3Dcache的提出打破了“3D加速必损画质”的传统认知,它无需重新训练模型和繁琐调参,以一种优雅的方式释放了3D扩散模型的推理潜能 [19] - 对于急需降低算力成本、提高生成效率的3D内容创作者和开发者而言,该技术是在3D几何生成减少计算冗余方面的一个重要开拓者,为后续工作提供了更多可能性 [19]
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]