Workflow
Stable Diffusion 3
icon
搜索文档
可微奖励就该直接微调!用HJB方程颠覆流匹配对齐|NeurIPS'25
量子位· 2026-03-09 14:05
文章核心观点 - 提出了一种名为VGG-Flow的新方法,用于微调扩散模型,该方法绕过了传统的强化学习框架,将奖励微调重新表述为一个连续时间最优控制问题,通过求解Hamilton–Jacobi–Bellman方程,直接将可微奖励转化为价值梯度,从而为流匹配模型的对齐提供了一条更稳定、更鲁棒的路径 [3][26] 技术背景与现有方法局限 - 当前大规模生成模型对齐的主流做法依赖强化学习,在奖励函数上微调模型以贴近人类偏好 [3] - 主流方法主要分为两类:一是将模型视为黑盒,通过将ODE采样过程转为随机SDE来适配强化学习框架,使用高方差的策略梯度方法;二是通过近似手段优化某些取样步的奖励值,但缺乏严格理论支撑且易导致过拟合与模式坍塌 [3] VGG-Flow核心方法论 - 核心思路是将微调目标定义为最大化“终态奖励”减去“累计代价”,其中累计代价约束微调模型与预训练模型在取样路径上的偏差 [4][7][8] - 通过最优控制理论,将问题转化为求解价值函数,其演化满足Hamilton–Jacobi–Bellman方程,并推导出最优微调方向等于价值函数的梯度 [9][10][11] - 该方法无需采样优势函数、计算对数概率比或进行策略比值裁剪,只需估计价值梯度即可直接、可微地更新模型 [12] 参数化与优化设计 - 引入了Forward-looking参数化方法,利用一步Euler前推预估终点,并用其奖励梯度对价值梯度进行参数化,使模型在训练初期具备合理引导方向 [14][15] - 即使不学习参数化中的残差项,仅依赖奖励梯度的引导也能实现明显的对齐效果,这显著降低了计算成本 [16] - 优化目标包括梯度匹配损失、价值一致性损失和终端边界损失,当不学习价值梯度中的残差项时,仅需优化梯度匹配损失 [17][19][20] 实验效果与性能 - 在Stable Diffusion 3上的实验表明,仅需400次更新,VGG-Flow即可实现奖励信号的稳定提升 [21] - 在Aesthetic和PickScore指标上,该方法展现出较高的收敛效率与良好的多样性保持能力 [21] - 相比ReFL、DRaFT等方法,VGG-Flow表现更为稳健,更不易遗忘预训练模型中的先验,生成结果更加自然,且无需将ODE转换为SDE [21] - 实验结果显示,该方法在奖励值、DreamSim多样性与CLIP多样性等指标上表现优异,同时保持了较低的FID [23][25] 总结与影响 - VGG-Flow通过学习空间中每一点的价值函数梯度,并使速度场向其对齐,实现了结构一致的可微奖励微调 [26] - 由于优化目标是匹配局部梯度而非直接最大化终态奖励,该方法在实践中表现出更好的稳定性与鲁棒性 [26] - 该方法为基于可微奖励函数的高效微调提供了一种新的思路,相关研究已被NeurIPS 2025接收 [3][26]
40倍推理加速!复旦&微软:用「非线性流」拟合复杂轨迹,2步生成媲美原画
量子位· 2026-02-15 11:45
行业背景与痛点 - 当前AI绘画领域的高质量大规模扩散模型(如Stable Diffusion 3、FLUX、Qwen-Image)通常需要40到100步迭代去噪(NFE)才能生成图像,计算成本高昂,导致实时应用困难 [5] - 为加速推理而提出的蒸馏技术(如Progressive Distillation)试图将推理压缩到几步,但普遍假设从噪声到图像的路径为“直线”,这导致画质劣化,出现细节模糊、结构崩坏等问题 [5][6] - 问题的根源在于“几何失配”:教师模型的生成轨迹是复杂的曲线,而现有加速方法强制学生模型走直线捷径,导致学生模型无法在2-4步内拟合复杂的切线变化 [6] 解决方案:ArcFlow的核心创新 - ArcFlow由复旦大学与微软亚洲研究院联合提出,其核心洞察是让学生模型学习教师模型的非线性曲线轨迹,而非强行拉直 [2][10] - 引入动量参数化:借鉴物理学中的“动量”概念,将速度场建模为多个连续动量过程的混合,从而捕捉教师模型去噪过程中的速度连续性,仅需一次计算即可外推连贯的非线性路径,消除采样冗余 [11] - 采用解析求解器:基于动量公式推导出闭式解析解,使得模型能在单次前向传播中精确计算任意时间步的终端状态,实现高精度流匹配,消除拟合误差 [12] - 设计轨迹蒸馏策略:在保留非线性特征的前提下对瞬时速度进行对齐,最大程度继承教师模型的预训练先验知识,避免了对抗性学习 [13] 性能与效率优势 - 实现显著加速:相比原始流程,ArcFlow实现了约40倍的推理加速和4倍的训练收敛加速 [3] - 保持高质量画质:在仅需2步推理(2 NFE)的情况下,生成图像质量高度接近教师模型 [3] - 参数高效:仅需通过LoRA微调不到5%的参数,无需全量微调,大大降低了训练门槛和对显存的需求 [3][15] - 训练快速收敛:得益于更精准的轨迹拟合,训练收敛速度比基线方法快4倍以上,仅需几千步训练即可达到高画质 [16] 实验验证结果 - 在Qwen-Image-20B和FLUX.1-dev等大规模模型上验证有效 [14] - 在Geneval、DPG-Bench等基准测试中,ArcFlow在2步推理下的FID(图像质量)和语义一致性均优于现有的SOTA方法(如pi-Flow, TwinFlow) [15] - 具体数据:ArcFlow-FLUX在2步推理下,FID为16.83,优于SenseFlow(27.55)和Pi-Flow(32.62);ArcFlow-Qwen在2步推理下,FID为12.40,优于Qwen-Image-Lightning(16.86)、pi-Flow(20.07)和TwinFlow(16.77) [17] - 直观对比显示,在2步推理下,ArcFlow生成的图像清晰度高,保留了教师模型的丰富细节和画面多样性,而其他线性蒸馏方法容易出现背景模糊、物体结构扭曲和多样性坍缩 [19] 总结与意义 - ArcFlow是一种显式采用非线性轨迹来逼近预训练扩散教师模型复杂动态的少步蒸馏框架 [22] - 通过将速度场参数化为连续动量过程的混合,并获得解析形式的闭式求解器,实现了精确的轨迹积分 [22] - 其内在的非线性特性确保了与教师模型的高精度对齐,避免了不稳定的对抗性目标函数和侵入式的全参数训练,实现了更快的收敛速度和更高效的蒸馏过程 [22] - 该方法为未来的高效生成模型研究提供了一个极具潜力的方向,能更高效地利用和继承预训练教师模型的先验知识 [22]
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-12-17 08:03
算法核心原理 - Flow Matching是一种生成式模型,旨在学习一个从随机噪声数据到目标数据分布的映射,其核心思想是学习一个速度场(或方向场),指导数据点从初始噪声状态向目标状态移动 [3][4][5] - 与直接学习端到端映射不同,Flow Matching通过构造从源点(噪声)到目标点的连线,并在连线上采样中间点,让模型学习这些中间点应该朝目标点移动的方向(即速度场),训练时,同一个中间点可能受到多条连线影响,其学习到的方向是多个目标方向的均值 [16][17] - 在推理(生成)阶段,模型从一个随机噪声点出发,依据学习到的速度场逐步移动,随着移动过程,状态的可能性会逐渐“坍缩”到目标分布中的某个特定样本附近,从而生成高质量结果,这避免了直接映射可能导致的输出为多个目标状态均值的问题 [7][17] 算法优势与对比 - 相比自回归生成模型(逐个像素/元素生成),Flow Matching在一次前向传播中生成整个样本,效率更高,避免了自回归模型需要多次调用模型的低效问题 [10] - 相比扩散模型(Diffusion Model),Flow Matching被视为一种更直接高效的替代方案,它通过学习确定性的移动方向来生成数据,而非多步迭代去噪,因此在Stable Diffusion 3、Meta MovieGen等先进模型中已开始应用 [12] - 该算法通过逐步“坍缩”状态来确保生成质量,在推理初期,移动方向可能是多个可能性的平均,但随着过程推进,方向会越来越确定,最终收敛到目标分布中的一点 [11][17] 算法实现与代码 - 基础实现包含几个关键步骤:为每个目标样本生成一个随机噪声源点;在源点与目标点连线上进行线性插值,采样得到中间点;用一个神经网络预测这些中间点的速度场;使用源点到目标点的真实方向向量作为监督信号进行训练 [18] - 代码示例以生成二维正弦曲线上的点为例,定义了向量场预测网络,在训练循环中计算预测速度场与目标速度场(`x1 - x0`)之间的均方误差损失,并通过数值求解常微分方程(ODE)的方式从噪声点出发生成最终样本 [19][20][21] - 算法可扩展为条件生成模型,通过简单修改网络结构,在输入中融入提示词(如标签、文本等)信息,即可控制生成样本的特定属性,例如控制生成正弦曲线上特定区间的点 [24][26][29] 高级应用实例 - 在手写数字生成(MNIST)任务中,采用了条件UNet作为预测速度场的骨干网络,因其具有多尺度特征融合能力,适合图像类生成任务 [32][33] - 在推理阶段,采用了自适应步长的ODE求解器(如`dopri5`方法),替代固定的欧拉法步进,可以在相同的迭代步数下获得更精细的生成结果,提升了生成效率和质量 [32][36] - 训练流程中,动态生成噪声样本和时间步长`t`,通过`xt = (1 - t) * noise + t * images`构造中间状态,并让模型预测从噪声到真实图像的向量场 [40]
直观理解Flow Matching生成式算法
自动驾驶之心· 2025-11-28 08:49
算法核心原理 - Flow Matching是一种生成式模型,旨在从随机输入生成与目标数据集相似的样本[3][4] - 与直接学习随机数据到目标数据的映射不同,该算法通过学习一个“行驶方向”或速度场,引导随机点逐步移动到目标分布区域[12][14] - 训练时在源点到目标点的连线上采样中间点,并学习其朝向目标点的移动方向,推理时从随机点出发,沿学习到的方向场移动,最终收敛到目标分布[16][17] 技术优势与比较 - 相比自回归模型逐像素生成效率低的问题,Flow Matching通过一次生成关联较小的区域来平衡效果与效率[9][10] - 相较于扩散模型的多步迭代降噪,Flow Matching提供了一种更直接高效的生成方案,已被Stable Diffusion 3、Meta MovieGen等应用[12] - 该算法能有效避免模型输出因可能性过多而退化为多种可能状态平均值的问题,生成质量更高[7][11] 代码实现与实战 - 基础实现包含生成随机源点、与目标点线性插值得到中间点、训练网络预测速度场并与真实方向计算损失等关键步骤[18][19] - 带提示词的生成模型可通过在预测网络中增加提示词输入实现,将生成过程约束到特定条件或区间[24][26] - 在MNIST手写数字生成任务中,采用UNet作为骨干网络以融合多尺度特征,并改用自适应步长ODE求解器以提升生成精度[32][34][36] 行业应用与前景 - 端到端自动驾驶算法工程师等岗位薪资范围达50-80K,显示市场对相关技术人才需求旺盛[50] - 行业课程涵盖从算法框架、强化学习应用到轨迹优化、模型部署等量产经验,旨在培养面向就业的实战能力[48][49] - 量产专家分享的导航信息编码、时空联合规划兜底等经验,直接关联算法在真实场景中的落地优化[47][49]
慕尼黑工业大学等基于SD3开发卫星图像生成方法,构建当前最大规模遥感数据集
36氪· 2025-06-30 15:47
卫星图像生成技术突破 - 德国慕尼黑工业大学和瑞士苏黎世大学团队提出结合地理气候提示与Stable Diffusion 3(SD3)生成卫星图像的新方法,并创建了最大遥感数据集EcoMapper [1][2] - EcoMapper数据集包含来自全球104,424个地点的290万张RGB卫星图像,覆盖15种土地覆盖类型及气候记录,空间覆盖面积达270万平方公里(占陆地面积2.05%)[5][7] - 该方法通过合成图像填补云层覆盖导致的观测空白,为全球气候适应和地理空间分析提供新工具 [2] 数据集与模型架构 - EcoMapper数据集按时间分批次采集,训练集含98,930个点位各24个月观测数据,测试集含5,494个点位96个月数据 [5][6] - 采用两种生成模型:微调后的SD3(支持1024x1024高分辨率)和专为遥感设计的DiffusionSat,后者通过元数据嵌入层增强时空属性编码 [8][9] - 多条件生成框架结合ControlNet技术,以历史卫星图像维持空间结构,气候提示反映环境变化,支持时间序列景观演变模拟 [10][12] 性能验证与行业应用 - SD3-FT-HR模型在文本到图像任务中FID最低(49.48),生成图像细节优于基线模型(SD3基线FID 157.36)[14][15] - 多条件生成模型FID进一步降至48.20,保持地理特征同时精准融合气候变化 [19][20] - 技术可应用于作物预测、土地利用监测及多云地区图像填补,推动气候变化可视化与情景探索 [22] 行业技术发展动态 - DiffusionSat为首个卫星图像专用扩散模型,支持多光谱输入和时间序列生成,由斯坦福团队开发并发表于ICLR 2024 [23] - MetaEarth模型通过自级联框架实现全球尺度无边界图像生成,北京航空航天大学团队成果 [24] - Earth Intelligence Engine结合物理模型生成洪水卫星图像,MIT等机构验证其物理一致性与泛化能力 [25][26]