视觉生成
搜索文档
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」
量子位· 2025-12-22 12:41
文章核心观点 - 香港中文大学、美团等机构的研究团队提出了一种名为“Thinking-while-Generating”的全新视觉生成范式,通过在生成过程中间歇性地插入文本推理,以解决现有模型在处理复杂空间关系、多物体交互和精准数量控制时的缺陷 [5][7][19] 现有技术瓶颈与解决方案 - 当前以FLUX.1、Emu3为代表的扩散模型与自回归模型在文生图和视频生成领域已能生成逼真画面,但在处理复杂空间关系、多物体交互或精准数量控制时仍会出错,例如将猫画到窗外或将三个苹果画成四个 [1] - 学术界此前主要解决方案有两条路径:一是“谋定而后动”,即生成前先规划详细布局,但缺乏灵活性;二是“亡羊补牢”,即生成后通过多轮对话修改,但推理开销大且耗时 [4] - TwiG范式旨在模仿人类画家,在作画过程中暂停以审视和规划,首次在单一生成轨迹中以局部区域为粒度,将文本推理与视觉生成深度交织 [5][7] Thinking-while-Generating框架详解 - TwiG框架将视觉生成从“黑盒”连续过程拆解为“生成-思考-再生成”的循环,受大语言模型中思维链启发,但反其道而行之,用推理来引导作画 [7] - 框架核心包含三个维度:1) “何时思考”:根据用户提示词规划思维时间表,将画面生成过程拆解为3个阶段效果最佳,对应图像“上部背景、主体内容、下部背景”的语义结构 [8];2) “思考什么”:在每个暂停点生成一段“思维链”,作为指导后续局部生成的微型路书 [9];3) “如何修正”:在画完局部后进行自我批判,若发现错误则触发局部“重画”机制,无需推倒重来 [10] 实证研究结果 - **Zero-Shot潜力**:仅通过精心设计的提示词,无需参数更新,TwiG-ZS在T2I-CompBench基准测试的属性绑定、空间关系等多个维度上已显著超越基准模型,表明现有多模态模型具备在生成过程中进行推理的潜力 [13][14][15] - **监督微调效果**:团队构建了包含50K数据的高质量数据集TwiG-50K进行监督微调,SFT有效减少了模型幻觉,使生成的思维链更加简练、可控 [16] - **强化学习突破**:采用针对TwiG优化的GRPO策略进行强化学习训练,TwiG-RL在T2I-CompBench++的多个关键组合与空间指标上,展现出与Emu3、FLUX.1等模型竞争力甚至更优的表现 [17] - **性能数据对比**:根据提供的性能对比表,TwiG-RL在多个关键指标上表现优异,例如在属性绑定的“2D-Spatial”指标上达到82.49,在“Color”指标上达到61.28,在“Shape”指标上达到73.19,在“Texture”指标上达到34.06,在对象关系的“3D-Spatial”指标上达到38.87,在“Numeracy”指标上达到61.93,在“Complext”指标上达到53.56 [18] 研究结论与未来展望 - 研究结论总结为三点:1) 生成需要逻辑,引入显式文本推理是处理复杂逻辑约束的必经之路;2) 修正优于重绘,在生成过程中进行局部即时修正比完成后大改更高效;3) 强化学习是关键,不仅能优化图像质量,更能教会模型如何思考,是挖掘多模态模型推理潜力的关键 [20] - 目前TwiG的实现与实验主要基于自回归ULM,但框架设计对扩散模型同样兼容,该“边生成边思考”的范式有望扩展到视频生成、3D建模等更复杂领域,为通用视觉智能提供新方向 [21]
GRPO训练不再「自嗨」!快手可灵 x 中山大学推出「GRPO卫兵」,显著缓解视觉生成过优化
机器之心· 2025-11-13 12:12
文章核心观点 - 中山大学等机构联合提出GRPO-Guard解决方案,旨在解决GRPO在流模型训练中出现的过度优化问题[3] - GRPO-Guard通过比率归一化和跨步梯度平衡两项关键技术,恢复裁剪机制有效性并均衡梯度贡献[19][21] - 该方法在多种GRPO变体、扩散骨干模型和代理任务中均能显著缓解过度优化,保持甚至提升生成质量[26][35] 技术问题分析 - GRPO在流模型训练中存在重要性比值分布偏移问题,导致均值长期低于1且方差差异显著[10][12] - 分布偏移使预先设定的clip机制失效,无法有效约束过度自信的正样本梯度[8][14] - 不同去噪步骤的梯度贡献差异显著,高噪声步骤贡献小,低噪声步骤贡献大,导致训练偏向单一噪声条件[15][16] - 上述问题共同导致模型陷入过度优化状态,代理奖励上升但实际图像质量和对齐度下降[2][23] 解决方案 - 比率归一化对每个去噪步骤的重要性比值分布进行标准化,使其均值接近1且方差一致[19] - 跨步梯度平衡基于RatioNorm均衡各去噪步骤梯度,使策略在整个噪声时间表上均匀探索[21] - 改进后的策略损失函数能防止单步过拟合,提升训练稳定性与生成多样性[21] 实验结果 - 在SD3.5-M模型上,Flow-GRPO结合GRPO-Guard在1860步时GenEval得分提升0.01至0.95,PickScore提升0.4至20.9[27] - 在1020步时文本渲染得分提升0.04至0.68,Gold Score平均提升0.04至1.20[27] - 在Flux 1-dev模型上,DanceGRPO结合GRPO-Guard在1260步时PickScore提升0.5至21.7,Gold Score平均提升0.14至1.02[27] - 可视化结果显示GRPO-Guard能有效保持训练后期图像质量,缓解baseline方法出现的文本响应退化和人体比例不一致问题[28][33]
NextStep-1:一次在图像生成上自回归范式的探索
机器之心· 2025-08-18 13:15
核心观点 - 阶跃星辰团队发布NextStep-1模型 探索在连续视觉空间中直接以自回归方式生成图像的新路径 通过轻量级流匹配头实现端到端训练 避免离散化信息损失并减少对外部扩散模型的依赖 [2][3][4] - 模型在多项权威基准测试中达到自回归模型的新SOTA水平 部分指标与顶尖扩散模型竞争 同时具备高保真文生图和强大图像编辑能力 [14][21][22] - 团队开源模型并坦诚当前局限性 包括生成稳定性、推理延迟和高分辨率扩展挑战 为未来研究提供明确方向 [25][26][33] 技术架构 - 核心采用14B参数Transformer骨干网络配合157M参数流匹配头 直接在连续空间生成图像Patch 实现高度统一的端到端架构 [7][8][10] - 通过通道归一化技术稳定Token统计特性 训练时增加噪声正则化反而提升输出质量 表明噪声有助于塑造更鲁棒的潜在空间 [16] - 流匹配头尺寸变化(157M→528M)对图像质量影响极小 证明Transformer承担核心生成逻辑 流匹配头仅作为轻量采样器 [12] 性能表现 - 在GenEval基准获得0.63/0.737分 在GenAI-Bench基础项和高级项分别达到0.88/0.907和0.67/0.741分 在DPG-Bench获得85.28分 [21] - OneIG基准总体得分0.417 其中对齐度0.826 文本理解0.507 在WISE基准多个子项达到0.51-0.73分 总体0.79/0.83分 [23] - 图像编辑能力在GEdit-Bench英文集获得6.58分 中文集6.40分 在ImgEdit-Bench获得3.71分 与主流编辑模型相当 [24] 发展挑战 - 高维潜在空间(如16通道)下出现生成不稳定现象 包括局部块状伪影、全局噪声和网格状伪影 可能与数值稳定性及二维空间编码局限性相关 [27][29] - 顺序解码导致显著推理延迟:生成4096长度序列时累计延迟达45.77秒 其中LLM解码占31.86秒 流匹配头多步采样构成额外开销 [28][29] - 高分辨率生成面临收敛效率低和技术迁移难问题 监督微调在小数据集表现脆弱 易陷入过拟合或训练崩溃 [30][32][35] 未来方向 - 通过流匹配头参量化减、模型蒸馏技术实现少步生成 并借鉴多Token预测等LLM技术加速自回归主干推理 [34] - 需探索小数据集微调的稳定方案 平衡目标风格对齐与通用生成能力 同时开发适配自回归框架的高分辨率生成技术 [32][34]
视觉强化学习最新综述:全领域梳理(新加坡国立&浙大&港中文)
自动驾驶之心· 2025-08-16 08:03
研究背景与综述定位 - 视觉强化学习(Visual RL)的爆发源于强化学习在大语言模型(LLM)中的成功迁移,特别是RLHF(人类反馈强化学习)显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战:复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱(多模态LLM/视觉生成/统一模型/VLA模型)、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程(MDP),将文本/图像/视频生成统一为episodic MDP框架,状态包含用户prompt和已生成动作序列[15] - 三大对齐范式:RLHF(三阶段流程:SFT→奖励模型→PPO优化)、DPO(直接优化偏好数据)、RLVR(可验证奖励替代主观偏好)[18][19][20] - 策略优化算法PPO(带价值网络与KL惩罚)和GRPO(组相对优势+移除价值网络)分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域 多模态大语言模型(MLLM) - 常规RL驱动型MLLM使用可验证奖励(如精确匹配/IoU)优化VLM骨干,代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D(Omni-R1双系统GRPO优化情感识别)和3D(MetaSpatial用渲染深度奖励优化AR场景生成)[34] - 图像推理分为"基于图像思考"(SVQA-R1用视图一致性奖励)和"用图像思考"(GRIT优化答案正确性+框精度)[35] 视觉生成 - 图像生成三大奖励范式:人类中心偏好优化(ImageReward)、多模态推理对齐(UnifiedReward)、Metric驱动优化(DDPO最小化FID)[37][40] - 视频生成通过偏好模型优化(InstructVideo)、组相对优化(DanceGRPO)、领域特定奖励(Phys-AR惩罚物理定律违反)提升时序一致性[41] - 3D生成采用RL优化文本-网格生成(DreamCS融合轮廓IoU与CLIP对齐)、交互式编辑(Nabla-R2D3用实时渲染验证奖励)[41] 视觉-语言-动作模型(VLA) - GUI自动化分桌面(GUI-R1映射点击成功为稠密奖励)和移动场景(AgentCPM-GUI压缩动作空间适配设备)[42] - 视觉导航采用端到端RL(VLN-R1时间衰减奖励处理轨迹)和仿真微调(Flare实现家居场景泛化)[45] - 机器人操纵通过任务接地奖励(TGRPO)、课程式RL(RLVLA提升重排成功率)优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级(FID/FVD)、样本级(人类偏好分数)、状态级(KL散度监控策略漂移)[46][48][49] - 开放挑战包括有效推理平衡(自适应周期策略)、VLA长周期RL(分层子目标发现)、视觉思考RL(混合动作空间设计)[50][51][52] - 奖励模型设计需融合低阶信号(几何一致性)与高阶偏好,并实现跨模态泛化与动态更新[53][56]
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心· 2025-05-14 16:09
研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]
13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”
量子位· 2025-03-30 10:37
视觉生成效率瓶颈 - 传统"下一个token预测"方法在图像/视频生成任务中面临严重效率瓶颈 需数千至数万次前向计算导致速度缓慢 [12] - 现有加速方法如并行生成多个token易因邻近token强相关性导致生成质量下降 [13] 邻近自回归建模(NAR)创新 - 采用"下一个邻域预测"机制 将生成过程重构为逐步扩展的"外绘"过程 按曼哈顿距离从初始token依次生成 [2][3] - 引入维度导向解码头 每个头负责空间/时间正交维度预测 实现多token并行生成 [4][16] - 支持高维扩展 视频生成可增加时间维度解码头 三步并行生成(时间/行/列) [17][18] 效率提升量化表现 - 视频生成步骤从传统tn步降至2n+t−2步 如t×n×n token视频效率显著提升 [19][20] - ImageNet 256×256任务中 372M参数NAR-L模型比1.4B参数LlamaGen-XXL FID更低(3.06 vs 3.09) 吞吐提升13.8倍(195.4 vs 14.1 images/s) [21] - UCF-101视频数据集生成步骤减少97.3% 相比PAR方法吞吐提升8.6倍且FVD更低 [23][24] 生成质量对比 - 文本到图像任务中 仅用0.4%训练数据(6M)即达到Stable Diffusion v1.5水平 综合得分0.43优于1.4B数据量的Chameleon-7B(0.39) [26][27] - 在保持质量同时 NAR-M模型比VAR-d16实现92%吞吐提升(248.5 vs 129.3 images/s)且FID更低(3.27 vs 3.30) [21] 技术应用前景 - 为高分辨率图像/长视频生成提供高效解决方案 显著突破现有自回归模型效率天花板 [28][29] - 维度导向设计展现强扩展性 可适配更高维视觉内容生成需求 [17][18]