FLUX
搜索文档
40倍推理加速!复旦&微软:用「非线性流」拟合复杂轨迹,2步生成媲美原画
量子位· 2026-02-15 11:45
行业背景与痛点 - 当前AI绘画领域的高质量大规模扩散模型(如Stable Diffusion 3、FLUX、Qwen-Image)通常需要40到100步迭代去噪(NFE)才能生成图像,计算成本高昂,导致实时应用困难 [5] - 为加速推理而提出的蒸馏技术(如Progressive Distillation)试图将推理压缩到几步,但普遍假设从噪声到图像的路径为“直线”,这导致画质劣化,出现细节模糊、结构崩坏等问题 [5][6] - 问题的根源在于“几何失配”:教师模型的生成轨迹是复杂的曲线,而现有加速方法强制学生模型走直线捷径,导致学生模型无法在2-4步内拟合复杂的切线变化 [6] 解决方案:ArcFlow的核心创新 - ArcFlow由复旦大学与微软亚洲研究院联合提出,其核心洞察是让学生模型学习教师模型的非线性曲线轨迹,而非强行拉直 [2][10] - 引入动量参数化:借鉴物理学中的“动量”概念,将速度场建模为多个连续动量过程的混合,从而捕捉教师模型去噪过程中的速度连续性,仅需一次计算即可外推连贯的非线性路径,消除采样冗余 [11] - 采用解析求解器:基于动量公式推导出闭式解析解,使得模型能在单次前向传播中精确计算任意时间步的终端状态,实现高精度流匹配,消除拟合误差 [12] - 设计轨迹蒸馏策略:在保留非线性特征的前提下对瞬时速度进行对齐,最大程度继承教师模型的预训练先验知识,避免了对抗性学习 [13] 性能与效率优势 - 实现显著加速:相比原始流程,ArcFlow实现了约40倍的推理加速和4倍的训练收敛加速 [3] - 保持高质量画质:在仅需2步推理(2 NFE)的情况下,生成图像质量高度接近教师模型 [3] - 参数高效:仅需通过LoRA微调不到5%的参数,无需全量微调,大大降低了训练门槛和对显存的需求 [3][15] - 训练快速收敛:得益于更精准的轨迹拟合,训练收敛速度比基线方法快4倍以上,仅需几千步训练即可达到高画质 [16] 实验验证结果 - 在Qwen-Image-20B和FLUX.1-dev等大规模模型上验证有效 [14] - 在Geneval、DPG-Bench等基准测试中,ArcFlow在2步推理下的FID(图像质量)和语义一致性均优于现有的SOTA方法(如pi-Flow, TwinFlow) [15] - 具体数据:ArcFlow-FLUX在2步推理下,FID为16.83,优于SenseFlow(27.55)和Pi-Flow(32.62);ArcFlow-Qwen在2步推理下,FID为12.40,优于Qwen-Image-Lightning(16.86)、pi-Flow(20.07)和TwinFlow(16.77) [17] - 直观对比显示,在2步推理下,ArcFlow生成的图像清晰度高,保留了教师模型的丰富细节和画面多样性,而其他线性蒸馏方法容易出现背景模糊、物体结构扭曲和多样性坍缩 [19] 总结与意义 - ArcFlow是一种显式采用非线性轨迹来逼近预训练扩散教师模型复杂动态的少步蒸馏框架 [22] - 通过将速度场参数化为连续动量过程的混合,并获得解析形式的闭式求解器,实现了精确的轨迹积分 [22] - 其内在的非线性特性确保了与教师模型的高精度对齐,避免了不稳定的对抗性目标函数和侵入式的全参数训练,实现了更快的收敛速度和更高效的蒸馏过程 [22] - 该方法为未来的高效生成模型研究提供了一个极具潜力的方向,能更高效地利用和继承预训练教师模型的先验知识 [22]
ICCV 2025|训练太复杂?对图片语义、布局要求太高?图像morphing终于一步到位
机器之心· 2025-07-18 08:38
核心观点 - FreeMorph是一种无需训练、一步到位的图像变形方法,能够在不同语义与布局的图像之间生成流畅自然的过渡效果 [5] - 该方法通过改进扩散模型的自注意力机制,解决了传统方法中训练成本高、适应性差的问题 [5][11] - FreeMorph在30秒内即可为两张输入图像生成高质量平滑过渡,显著优于现有技术 [32] 技术背景 - 传统图像变形技术依赖复杂的图像对齐算法和颜色插值,难以处理复杂纹理和多样语义的图像 [4] - 现有深度学习方法如GAN、VAE存在训练成本高、数据依赖强、反演不稳定等问题 [4] - 基于Stable Diffusion和CLIP等大模型的方法仍面临训练时间长(约30分钟/案例)和语义处理能力不足的挑战 [9] 技术方案 - 引导感知的球面插值:通过修改预训练扩散模型的自注意力模块,融入输入图像的显式引导来增强模型 [11] - 球面特征聚合融合自注意力模块的Key和Value特征,确保过渡一致性 [16] - 先验引导的自注意力机制保留输入图像的独特身份特征 [18] - 步骤导向的变化趋势:融合两个输入图像的自注意力模块,实现受控且一致的过渡 [21] - 改进的反向去噪和正向扩散过程:将创新组件集成到原始DDIM框架中 [22][25] 技术优势 - 无需训练或调参,仅需两张输入图像即可完成变形 [5] - 处理时间仅需30秒,显著快于现有方法(如IMPUS需要30分钟) [32] - 能够处理语义多样、布局复杂的图像对,保持身份特征和平滑过渡 [27][30] - 在四组不同类别的评估数据集上表现优异 [12] 应用前景 - 可应用于动画、电影特效或照片编辑等领域 [3] - 能够捕捉细微变化,如不同颜色的蛋糕或人物表情的微妙差异 [27] - 为training-free图像变形打开了新的可能性 [5] 技术局限 - 处理语义或布局差异较大的图像时,过渡可能不够平滑 [34] - 继承了Stable Diffusion的固有偏差,在人体四肢等结构处理上准确性受影响 [34]
2025年哪款模型最受欢迎?Poe最新报告:DeepSeek降温、可灵成黑马
Founder Park· 2025-05-15 19:34
模型市场份额动态 - DeepSeek R1消息份额从2月中旬7%峰值降至4月底3% [4][7] - GPT-4.1系列和Gemini 2.5 Pro在编程任务中份额分别增长至10%和5% [7] - Claude 3.5 Sonnet仍保持12%总体使用率,但Claude 3.7 Sonnet抢占其份额 [7] 推理模型发展趋势 - 用户发给推理模型的文本消息总份额从2%上升至10% [4][9] - Gemini 2.5 Pro发布后6周内获得30%推理消息份额 [11] - 具备混合推理能力的模型如Gemini 2.5 Flash Preview和Qwen 3占比约1% [14] 图像生成领域竞争 - GPT-Image-1开放API两周内图像生成使用率达17% [4][17] - 谷歌Imagen 3系列使用量从10%增长至30% [17] - FLUX系列图像生成模型市场份额从45%降至35% [18] 视频生成市场格局 - Kling-2.0-Master发布三周内占据21%视频生成请求份额 [4][21] - 谷歌Veo 2模型保持约20%使用份额 [22] - Runway使用份额下降40%至约20% [23] 音频生成领域现状 - ElevenLabs处理约80%订阅用户TTS请求 [4][24] - Cartesia、Unreal Speech等新玩家提供多样化声音选项和价格方案 [24]
无需训练让扩散模型提速2倍,上交大提出Token级缓存方案|ICLR‘25
量子位· 2025-02-28 13:19
文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速,上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题,在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色,Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展,但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法,基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同,有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略,并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略,应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大,需考虑token级特征缓存 - 复用策略 [8] 方法 计算流程 - Cache初始化:推理完整时间步,将各层特征放入cache [9] - 重要性得分计算:计算各token重要性得分,标记最低部分token为cache状态 [9] - 部分计算:对传入token执行正常计算得到输出 [10] - Cache更新:调出cache中token输出,更新计算得到的新输出,循环长度2 - 4个时间步,还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数,实际应用中加权求和给出总得分 [13] 实验结果 图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳,图 - 文对齐能力更好,FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳,和原图基本无差异,在文字生成任务细节有差异,后续将研究,在FLUX上1.5倍加速,数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果,将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法,取得2.36倍无损加速,在加速效果和生成质量上最优,大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法,适配性强,在多种任务上表现佳,基于特征缓存的扩散模型加速方法值得进一步探索 [23]