视觉强化学习 - 财报，业绩电话会，研报，新闻

视觉强化学习

搜索文档

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

机器之心· 2025-11-17 12:23

核心观点 - 研究团队推出VinciCoder模型，旨在解决多模态代码生成领域传统监督微调范式的局限性，特别是其缺乏视觉反馈和无法保证代码可执行性的问题 [2] - 模型核心创新在于将强化学习的奖励机制从文本域转向视觉域，提出视觉强化学习，通过“大规模SFT + 粗细粒度ViRL”的两阶段策略统一多样化代码生成任务 [2][7] - 实验结果表明，VinciCoder在多个基准测试中树立了开源模型的新SOTA性能标准，并在部分高难度任务上展现出超越顶尖闭源模型的卓越性能 [16] 传统SFT范式的局限性 - 传统SFT-only范式存在“狭隘的训练范围”，从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能的发展 [2] - 训练目标与最终任务之间存在“视觉鸿沟”，SFT采用自回归的“下一词元预测”目标，本质上是局部的，无法为代码“可执行性”等全局属性提供监督信号 [6] - 模型在训练时完全看不到代码的渲染结果，缺乏视觉反馈，导致微小的代码修改可能引起渲染图像的巨大变化，在确保代码可执行性和高视觉保真度方面存在显著瓶颈 [2][6] VinciCoder的技术框架与创新 - 框架由“1.6M大规模SFT阶段”和“42k粗细粒度ViRL阶段”两部分组成，通过两阶段协作同时实现强大的代码理解与高保真的视觉对齐 [7] - 研究团队构建了包含160万图像-代码对的大规模SFT语料库，不仅覆盖直接代码生成，还引入了“视觉代码优化”的新任务以提升模型纠错和优化能力 [10] - 引入视觉强化学习框架，摒弃传统强化学习中脆弱的、基于规则的“文本奖励”，转而从视觉直接获取奖励信号，其核心突破在于一套粗-细粒度视觉奖励机制 [12][14] - 粗粒度奖励通过下采样生成缩略图评估整体结构相似性，细粒度奖励将高分辨率图像分割为局部图块以精确计算局部细节保真度，并使用DINOv2-L计算视觉相似度作为奖励信号 [14] - 采用群组相对策略优化算法对模型进行微调，并引入辅助的语言对齐奖励以惩罚生成错误代码语言的行为，显著提升视觉对齐度和代码可执行性 [14] 实验结果与性能表现 - 在五大多模态代码生成基准上的全面实验显示，VinciCoder-7B在ChartMimic_direct_v2任务上取得91.2分，在UniSVG-ISVGEN任务的高线宽（High-L）执行率（Exec.Rate）上达到92.0分 [16] - VinciCoder-8B在Design2Code任务上取得88.4分，在Image2Latex_plot任务上的EMS分数为77.3，在ChemDraw任务上的Tani.Sim.分数达到62.6 [16] - 消融实验证明，仅SFT阶段的VinciCoder-SFT就已建立强大基线，而ViRL阶段的引入成功将模型性能提升至SOTA水平，验证了SFT-ViRL两阶段策略的压倒性优势 [16] 研究意义与应用前景 - 研究验证了“视觉强化学习”是突破SFT瓶颈、提升代码视觉保真度的有效途径，将奖励机制从文本域成功扩展到视觉域 [20][22] - 提供了一个强大的统一框架，能够处理包括Python、HTML、SVG、LaTeX乃至化学SMILES在内的多样化代码生成任务，打破了过去模型“各自为战”的狭隘范式 [22] - “粗-细粒度”奖励设计为处理高分辨率、高复杂度视觉输入的强化学习任务提供了健壮且可扩展的解决方案 [22]

比NanoBanana更擅长中文和细节控制！兔展&北大Uniworld V2刷新SOTA

量子位· 2025-11-05 13:39

模型性能与竞争优势 - 新一代图像编辑模型UniWorld-V2在GEdit-Bench基准测试中获得7.83分，显著优于GPT-Image-1的7.53分和Gemini 2.0的6.32分 [24] - 在ImgEdit基准测试中以4.49分领先，超越了所有已知的开源和闭源模型 [24] - 相比Nano Banana等模型，能更精准理解中文指令意图并完美执行复杂图像编辑任务 [1][4][6] 核心技术框架 - 创新性提出UniWorld-R1框架，是业内首个将强化学习策略优化应用于统一架构图像编辑模型的视觉强化学习框架 [8][19] - 采用Diffusion Negative-aware Finetuning技术，实现无需似然估计的高效策略优化 [19] - 开创性使用多模态大语言模型作为免训练的通用奖励模型，利用其输出logits提供精细化隐式反馈 [19] 功能应用特点 - 具备强大的中文字体掌握能力，能精准渲染如“月满中秋”等笔画复杂的艺术字体 [11] - 支持精细化空间可控编辑，用户可通过画红框指定区域，模型能严格执行如“将鸟移出红框”等指令 [14] - 拥有全局光影融合能力，可深刻理解“给场景重新打光”等指令，使物体自然融入场景且光影融合度极高 [15] 行业影响与模型泛化能力 - 该方法显著提升了基础模型性能，使FLUX.1-Kontext在ImgEdit基准分数从3.71上升到4.02，超越其Pro版本的4.00分 [25] - 在域外GEdit-Bench测试中展现出强大泛化能力，使FLUX.1-Kontext总分从6.00提升至6.74，超越Pro版本的6.56分 [26] - 人工偏好研究显示，用户在所有标准中更倾向于选择经过该方法微调的模型，证实其能有效引导模型生成更符合人类偏好的输出 [27]

VLA+RL还是纯强化？从200多篇工作中看强化学习的发展路线

具身智能之心· 2025-08-18 08:07

视觉强化学习综述核心观点 - 该综述对视觉强化学习（VRL）领域进行系统性梳理，整合200+篇研究成果，提出四大主题支柱：多模态大型语言模型、视觉生成、统一模型框架和视觉-语言-动作模型，并分析算法设计、奖励工程及评估协议 [5] - 强调强化学习在视觉任务中的关键作用，包括跨模态对齐、长序列优化及可验证奖励设计，同时指出开放挑战如推理效率、长视野信用分配等 [47] 研究框架强化学习范式 - **RLHF（基于人类反馈的强化学习）**：通过三元组偏好数据训练奖励模型，结合PPO优化策略，三阶段流程（监督预训练→奖励建模→策略优化）成为主流 [10] - **DPO（直接偏好优化）**：绕过奖励建模环节，直接通过封闭式监督目标优化策略，降低计算成本 [11] - **RLVR（带可验证奖励的强化学习）**：用确定性验证信号（如代码测试结果）替代人类偏好，提升客观性 [12] 策略优化算法 - **PPO（近端策略优化）**：通过重要性采样和广义优势估计实现稳定策略更新，依赖精确奖励模型 [15] - **GRPO（群体相对策略优化）**：利用群体归一化优势信号替代价值网络，降低内存消耗并提升训练稳定性 [16] 应用领域多模态大型语言模型 - **传统方法**：通过GRPO/PPO将视觉-语言模型与可验证奖励对齐，如RePIC、GoalLadder等 [17] - **空间感知**：2D任务（目标检测、分割）和3D任务（布局推理）均采用规则驱动奖励和KL正则化微调 [18] - **视频推理**：分层奖励设计（如VQ-Insight）和时间衰减回报（如TW-GRPO）解决长序列挑战 [20] 视觉生成 - **图像生成**：DiffPPO等结合扩散模型与感知奖励（如ImageReward），提升生成质量 [21] - **3D生成**：DreamCS等通过渲染-比较循环优化几何结构，强化学习实现标准方法难以达到的保真度 [24] 视觉-语言-动作模型 - **GUI自动化**：规则驱动奖励（如GUI-R1）和群体归一化更新（如UIShift）推动跨平台交互 [28] - **视觉导航**：OctoNav-R1等结合第一人称视觉与低级动作控制，通过混合强化学习管道提升泛化性 [29] 评估体系 - **多模态模型**：结合外部基准（如MME）、人类偏好奖励和KL散度监控 [35] - **视觉生成**：FID/CLIP Score等传统指标与去噪轨迹诊断结合 [36] - **GUI任务**：在线成功率与逐步奖励设计（如Mind2web）平衡稀疏信号问题 [39] 未来方向 - **自适应推理**：通过终止评论者动态平衡深度与效率 [43] - **长视野优化**：子目标发现与对比视觉-语言评论者缓解稀疏奖励问题 [44] - **奖励模型设计**：需开发抗攻击、跨模态且用户可定制的综合奖励函数 [46]

视觉强化学习最新综述：全领域梳理（新加坡国立&浙大&港中文）

自动驾驶之心· 2025-08-16 08:03

研究背景与综述定位 - 视觉强化学习（Visual RL）的爆发源于强化学习在大语言模型（LLM）中的成功迁移，特别是RLHF（人类反馈强化学习）显著提升了LLM的人类偏好对齐与复杂推理能力[7] - 当前领域面临三大核心挑战：复杂奖励信号下的策略优化稳定性、高维视觉输入的高效处理、长周期决策场景的可扩展奖励函数设计[7] - 综述核心目标包括形式化视觉RL问题、分类200+研究为四大支柱（多模态LLM/视觉生成/统一模型/VLA模型）、分析算法设计与评估体系[8] 视觉强化学习的理论基础 - 问题建模采用马尔可夫决策过程（MDP），将文本/图像/视频生成统一为episodic MDP框架，状态包含用户prompt和已生成动作序列[15] - 三大对齐范式：RLHF（三阶段流程：SFT→奖励模型→PPO优化）、DPO（直接优化偏好数据）、RLVR（可验证奖励替代主观偏好）[18][19][20] - 策略优化算法PPO（带价值网络与KL惩罚）和GRPO（组相对优势+移除价值网络）分别适用于通用场景和内存密集型任务[26][27] 四大核心应用领域多模态大语言模型（MLLM） - 常规RL驱动型MLLM使用可验证奖励（如精确匹配/IoU）优化VLM骨干，代表模型包括RePIC、GoalLadder、GRPO-CARE[32] - 空间感知方向分为2D（Omni-R1双系统GRPO优化情感识别）和3D（MetaSpatial用渲染深度奖励优化AR场景生成）[34] - 图像推理分为"基于图像思考"（SVQA-R1用视图一致性奖励）和"用图像思考"（GRIT优化答案正确性+框精度）[35] 视觉生成 - 图像生成三大奖励范式：人类中心偏好优化（ImageReward）、多模态推理对齐（UnifiedReward）、Metric驱动优化（DDPO最小化FID）[37][40] - 视频生成通过偏好模型优化（InstructVideo）、组相对优化（DanceGRPO）、领域特定奖励（Phys-AR惩罚物理定律违反）提升时序一致性[41] - 3D生成采用RL优化文本-网格生成（DreamCS融合轮廓IoU与CLIP对齐）、交互式编辑（Nabla-R2D3用实时渲染验证奖励）[41] 视觉-语言-动作模型（VLA） - GUI自动化分桌面（GUI-R1映射点击成功为稠密奖励）和移动场景（AgentCPM-GUI压缩动作空间适配设备）[42] - 视觉导航采用端到端RL（VLN-R1时间衰减奖励处理轨迹）和仿真微调（Flare实现家居场景泛化）[45] - 机器人操纵通过任务接地奖励（TGRPO）、课程式RL（RLVLA提升重排成功率）优化长周期规划[45] 评估指标与未来方向 - 分层评估框架包含集合级（FID/FVD）、样本级（人类偏好分数）、状态级（KL散度监控策略漂移）[46][48][49] - 开放挑战包括有效推理平衡（自适应周期策略）、VLA长周期RL（分层子目标发现）、视觉思考RL（混合动作空间设计）[50][51][52] - 奖励模型设计需融合低阶信号（几何一致性）与高阶偏好，并实现跨模态泛化与动态更新[53][56]

中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

量子位· 2025-03-31 12:35

研究背景与问题 - 视觉强化学习中的泛化问题受到广泛关注旨在使智能体具备处理现实复杂任务的能力在多样化环境中表现良好[7] - 现有方法如数据增广和对比学习仅聚焦于从视觉图像中提取鲁棒信息忽略了下游关键的决策过程导致难以捕捉序列数据中关键的长期信息[8] - 许多方法未考虑序列决策过程导致所学表征缺乏关键的长期信息[1] 方法创新 - 研究人员在信息瓶颈框架下提出ROUSER方法通过引入信息瓶颈学习能有效捕捉决策目标中长期信息的向量化表征[2][9] - ROUSER通过最大化表征与动作价值之间的互信息来保留长期信息同时最小化表征与状态-动作对之间的互信息以滤除无关特征[4][10] - 由于动作价值未知 ROUSER将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征[5][10] 技术实现 - ROUSER包含两个核心模块：奖励模型学习仅包含单步奖励信息的表征通过最大化奖励表征与单步奖励的互信息同时最小化奖励表征与状态-动作对的互信息[14][15] - 鲁棒损失模块构建递归式损失函数仅利用奖励模型编码的表征即可直接计算该模块不更改批评家模型架构最终学习的向量化表征为批评家模型的中间层嵌入[16] - 方法理论证明ROUSER能够利用学习到的向量化表征准确估计动作价值可有效结合各类连续和离散控制的视觉强化学习算法[3][17] 实验效果 - 在12个连续控制任务中 ROUSER于11个任务上取得最优性能实验包括背景干扰与颜色干扰两类任务[6][18] - 在物体动态颜色变化干扰的6个任务中 ROUSER展现出优越的泛化性能[19][25] - ROUSER可兼容离散控制任务当与基于价值的VRL方法结合应用于非连续控制任务时也能提升智能体的泛化性能[21][22]