Rectified Flow (RF)反演稳定性
搜索文档
西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26
量子位· 2026-03-02 17:09
行业趋势:AI生成模型从纯生成转向可控生成与智能编辑 - 大规模生成模型在视觉内容生产中的能力不断提升,AI使用方式正从“纯生成”转向“可控生成”与“智能编辑” [1] - 在创意设计、影视制作等实际场景中,用户不仅需要从文本生成图像,更需要对现有内容进行精细修改,如局部编辑、风格调整、视频跨帧一致修改等 [1] - 实现上述可控编辑任务的共同前提是模型必须具备稳定可靠的反演能力,能够将输入图像准确映射回自身的潜在表示空间 [2] 技术挑战:Rectified Flow模型的反演不稳定性问题 - Rectified Flow模型凭借高效的ODE推理、光滑的生成轨迹和良好的训练稳定性,正成为替代扩散模型的重要方向,被越来越多主流模型采用 [4] - 然而,RF模型在反演阶段面临根本性的数值不稳定问题:逆向路径对误差高度敏感,容易偏离前向轨迹,不同次反演得到的潜在表示差异显著,噪声在逆向传播中被放大 [4] - 这些问题使得RF模型难以在实际编辑任务中稳定重建输入图像,限制了其在真实场景中的可用性 [4] - 现有许多改善反演的方法依赖额外训练或对结构的修改,提高了工程成本并影响泛化性,难以满足大模型时代快速集成与跨模型复用的需求 [4] 解决方案:西湖大学团队提出的PMI机制 - 西湖大学张驰研究团队提出了PMI,其核心思想是利用RF模型内部固有的平均流结构,在逆向ODE的每一步加入一个轻量的proximal修正步骤,以抑制逆向轨迹的偏移与发散 [6][7] - PMI具有无需额外训练、无需修改原结构、即插即用、不增加推理成本的特点,可直接作为插件集成到各种RF模型中 [6][9][10][11][12] - 该方法能显著提升反演稳定性,减少多次反演之间的差异,提高轨迹一致性与可控性 [13] - 相关论文已被ICLR26接收,论文第一作者是西湖大学研究人员王晨如,指导老师为西湖大学AGI实验室负责人张驰助理教授 [6] 配套创新:Mimic-CFG策略解决编辑中的身份丢失问题 - 在利用反演进行图像编辑时,引入无分类器引导常导致生成的图像丢失原图的身份特征或出现伪影 [14] - PMI创新性地提出了mimic-CFG策略来平衡这一矛盾,通过方向投影和动态补偿机制,在响应编辑指令的同时保留原图本质的结构信息 [15][16] - 该策略使模型能在完成大幅改动指令的同时,确保主体身份和未编辑区域的一致性 [17][18] - PMI与mimic-CFG结合,使RF模型在反演阶段同时具备数值稳定性与语义可控性,显著提升可控编辑任务的可靠性 [19] 实验验证:PMI在重建精度与感知质量上表现领先 - 在图像编辑权威基准数据集PIE-Bench上,PMI与Vanilla RF-Inversion、FireFlow及传统的Euler采样器进行了多维度对比 [20] - 在图像重建任务中,PMI表现出了统治级的性能。在相同的20步采样下,PMI在PSNR指标上显著高于对比方法,在LPIPS指标上取得了最低的数值,证明其能几乎无损还原像素级细节,且在人类视觉感知上与原图高度一致 [21] - 相比于需要大量迭代的优化类方法,PMI在更短的推理时间内即可收敛 [22] - PMI具有极强的普适性,可以直接应用在Flux.1-schnell/dev、Stable Diffusion 3等基于Rectified Flow的主流模型上,无需任何额外的微调或显存开销 [23] 定量数据:PMI提升多种采样器的性能 - 在条件性任务中,使用PMI后,Euler采样器的PSNR从22.10提升至22.56,Heun采样器从29.16提升至30.38,RF-Solver从29.17提升至30.72,FireFlow从29.72提升至30.42 [25] - 在非条件性任务中,使用PMI后,Euler采样器的PSNR从21.96提升至23.26,Heun采样器从27.76提升至29.86,RF-Solver从27.81提升至29.87,FireFlow从28.87提升至29.73 [25] - 在条件性任务中,使用PMI后,Heun采样器的LPIPS从63.62降低至53.25,RF-Solver从63.63降低至53.69,FireFlow从55.87降低至53.48 [25] 结论与行业影响 - 随着Flow模型在生成式AI领域影响力扩大,反演已成为各类编辑、控制和增强任务的基础能力,但RF模型在逆向推理中的不稳定性限制了其实际应用 [26] - PMI为这一核心问题提供了一个高效、简洁且无需额外训练的解决方案,通过轻量机制使逆向轨迹稳定贴近模型的平均流结构,显著提升反演的一致性和可复现性 [26] - 该方法增强了重建质量,使得后续的局部编辑、条件控制等任务更可靠、更易用,为Flow模型向实际编辑系统过渡奠定了重要基础 [26] - PMI在多个RF模型及不同反演场景中均展示了显著优势,其无需训练、即插即用的特点使其能直接应用于不同架构、不同规模的Flow系列模型,具有良好的泛化性与工程实用价值 [26] 未来展望:稳定反演技术推动Flow模型落地 - 以PMI为代表的稳定反演技术将成为推动Flow模型落地的重要组件之一 [27] - 随着模型规模持续扩大、应用场景不断丰富,稳定的反演机制将在视频编辑、多模态融合、三维生成等复杂场景中发挥更关键的作用 [27] - 该技术有望进一步推动Flow模型走向真正意义上的统一生成与可控编辑框架 [27]