Workflow
Diffusion Models
icon
搜索文档
ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
机器之心· 2025-08-02 12:43
扩散模型加速技术研究 核心观点 - 扩散模型因逐步去噪机制导致推理延迟高,成为部署效率瓶颈[2] - 现有加速方法(数值求解器、模型蒸馏、并行计算)均存在质量损失或成本过高问题[3] - 西湖大学提出EPD-Solver创新方案,融合三类优势,在3-5步采样下保持高质量生成[3][4] 技术原理 - 基于向量值函数中值定理,通过并行计算多个中间时刻梯度并加权融合[9][10] - 参数集包含中间时刻τₙᵏ、融合权重λₙᵏ、偏移量δₙᵏ和扰动参数oₙ[11][15] - 采用蒸馏框架优化参数:生成教师轨迹后最小化学生轨迹差异[16] 性能优势 - CIFAR-10测试中EPD-Solver在3步采样时FID仅10.40,显著低于DDIM的93.36和EDM的306.2[20] - ImageNet 64×64条件生成任务中,3步采样FID为18.28,优于AMED-Solver的38.10[20] - 插件版本EPD-Plugin在LSUN Bedroom数据集3步采样FID达13.21,较AMED-Solver提升45分[21] 应用特性 - 完全并行化设计,额外梯度计算不增加单步推理延迟[14][28] - 可插拔集成至现有求解器如iPNDM,无需模型重训练[17][28] - Stable Diffusion v1.5上8-20步生成质量超越DPM-Solver++(2M)[25] 行业意义 - 突破低延迟采样下速度与质量的权衡瓶颈[27] - 为游戏、VR、数字内容创作等实时生成场景提供新解决方案[2][28] - 实验证明并行计算是扩散模型高效采样的潜力方向[28]
EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
机器之心· 2025-07-12 12:50
研究背景与动机 - 扩散模型和扩散Transformer在视频生成领域广泛应用,显著提升了AI合成视频的质量和连贯性,如OpenAI Sora、HunyuanVideo、Wan2.1等模型已能生成结构清晰、细节丰富且高度连贯的长视频内容 [3] - 当前扩散模型存在推理慢、算力消耗高的问题,例如HunyuanVideo生成5秒720P视频在单张H20上需2小时,限制了实时互动和移动端应用 [4] - 核心瓶颈在于扩散模型需多次迭代去噪,每一步都需完整神经网络前向推理,导致大量冗余计算 [5] 方法创新:EasyCache设计与原理 - EasyCache是一种无需训练、无需模型结构改动的推理加速框架,通过动态检测模型输出的「稳定期」复用历史计算结果以减少冗余推理步骤 [7] - 研究发现扩散模型在去噪初期输出变化剧烈需完整推理,中后期「变换速率」趋于稳定,行为近似线性,可通过复用历史结果跳过冗余计算 [12][13] - 采用自适应缓存机制,通过变换速率度量(Kt)和累计误差阈值(Et)动态判断是否复用缓存,前R步为warm-up确保初期结构信息不丢失 [15][19] 实验结果与性能 - 在HunyuanVideo上实现2.2倍加速,PSNR提升36%至32.66,SSIM提升14%至0.9313,LPIPS大幅下降至0.0533,视频质量几乎无损 [17][20] - 在Wan2.1上取得2.54倍加速,PSNR达25.24,SSIM 0.8337,LPIPS 0.0952,优于Static cache和TeaCache等方法 [20] - 在图像生成任务(FLUX.1-dev)实现4.64倍加速,FID降至23.2,CLIP Score保持26.1 [21][22] - 与SVG等稀疏注意力技术叠加后平均加速达3.3倍,总体推理时长从2小时缩短至33分钟 [23][26] 技术优势与行业影响 - 可视化对比显示EasyCache生成的视频在细节、结构和清晰度上与原模型几乎一致,显著优于静态缓存和TeaCache等方法 [24][25] - 该技术为视频扩散模型提供了极简、高效、训练无关的推理加速新范式,为实际应用落地奠定基础 [27] - 未来有望通过持续优化进一步逼近「实时视频生成」目标,推动数字内容创作和多媒体娱乐行业变革 [27]
从科研到落地,从端到端到VLA!一个近4000人的智驾社区,大家在这里报团取暖~
自动驾驶之心· 2025-07-11 19:23
自动驾驶社区建设 - 目标在3年内打造万人规模的智能驾驶与具身智能社区,已吸引华为天才少年及多位领域专家加入[2] - 构建了学术+产品+招聘的完整生态链,形成课程+硬件+问答的教研闭环[2] - 社区内容涵盖技术动态分享、入门问答、求职信息及行业前沿讨论[2] 技术课程体系 - 提供超千元价值的自动驾驶技术论文解读免费视频教程[2] - 原创直播课程覆盖自动驾驶9大方向:综述/感知融合/标定/SLAM/决策规划/数据工程等[2] - 自研硬件包括标定板、黑武士、天工开物及具身智能机械臂等设备[2] - 网络公开课包含自动驾驶基础、深度学习、机器学习等十余门课程[2] 学习路线规划 - 整理15个自动驾驶学习方向路线图,包含新人指南/提问技巧/问答精选等模块[3] - 汇总国内外高校著名自动驾驶团队及企业信息[3][4] - 提供自动驾驶数据集、仿真工具、标注工具等资源[3] 行业资源对接 - 与近200家自动驾驶公司建立内推渠道,简历可直达企业[4] - 覆盖小米/地平线/理想/小鹏/英伟达/比亚迪/华为等头部企业资源[6] - 针对创业者/高管/产品经理等角色开放资源对接通道[6] 技术发展趋势 - 2025年技术基调确定为VLA(视觉语言行动)驱动的端到端2.0系统[7] - 关键技术包括视觉大语言模型基座、扩散模型轨迹预测、3DGS生成技术等[7] - 技术迭代周期从2024年下半年开始明显缩短[7] 知识星球内容 - 国内最大自动驾驶技术社区,成员近4000人,含100+行业专家[14] - 每周活跃度居国内前20,日均成本约0.5元[14] - 四大核心板块:学术进展追踪/技术分类汇总/求职资料/问题解答[16] 前沿技术方向 - 重点布局VLA/大模型/扩散模型/具身智能等方向[24] - 视觉语言模型应用涵盖预训练/迁移学习/知识蒸馏等技术路线[27][28][29] - 世界模型研究聚焦3D场景理解与生成、驾驶视频生成等方向[45][46] 数据集资源 - 整理超30个自动驾驶数据集,包含KITTI/Cityscapes/nuScenes等标杆数据集[37] - 语言增强数据集涵盖视觉问答、导航指令、车辆检索等场景[38] - 图像文本数据集规模从百万级(COCO)到百亿级(WebLI)不等[31] 求职与职业发展 - 提供面经覆盖SLAM/计算机视觉/感知融合等方向[4] - 专家建议传统SLAM从业者转向3DGS重建或规控领域[106] - 多模态3D检测方向建议向端到端/大模型/数据闭环转型[108]
Z Tech|对话CV泰斗何恺明新作研究团队,三位05后MIT本科生,Diffusion真的需要噪声条件吗?
Z Potentials· 2025-02-27 12:09
AI生图技术研究突破 - 传统扩散模型和流匹配技术是AI生图主流方法,持续展现创造力 [1] - 最新研究发现噪声条件在去噪模型中可能非必需,颠覆传统认知 [1][3] - 研究由CV专家何恺明领衔,MIT三位大一新生共同一作完成 [1][2] 研究成果核心发现 - 移除噪声条件后模型性能仅温和衰减,流匹配模型表现更优 [2][4] - 新型无噪声条件模型uEDM在CIFAR-10测试中FID达2.23,接近顶尖噪声模型EDM的1.97 [2][6] - 研究提出误差理论解释模型行为差异,无噪声架构性能仅相差13% [3] 研究方法与验证 - 在主流去噪模型上实验证明噪声条件移除影响有限 [4] - 理论分析与实验结果匹配,给出误差界解释 [5] - uEDM模型在图像生成任务中达到接近SOTA水平 [6] 学术活动与资源 - 论文作者团队将于3月3日通过Z Potentials平台进行专题直播讲座 [1] - 讲座含Q&A环节,探讨生成模型及DeepSeek等开源模型发展方向 [2] - 论文链接已公开于arXiv平台,提供学术交流入口 [7]