Workflow
图像恢复
icon
搜索文档
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 20:06
核心观点 - JarvisIR是基于视觉语言模型(VLM)的智能图像恢复系统,通过动态调度多个专家模型处理复杂天气下的图像退化问题,实现更鲁棒、更通用的图像恢复能力[5][9] - 系统在CleanBench-Real数据集上平均感知指标提升50%,显著优于现有方法[9][47] - 提出MRRHF对齐算法,结合监督微调与人类反馈,提升模型在真实场景下的泛化能力和决策稳定性[9][27] 方法详解 JarvisIR架构设计 - 核心思想是将VLM作为控制器,协调多个专家模型完成图像恢复任务[7] - 工作流程包括任务解析、任务规划、模型调度和结果整合四个步骤[10] - 首个将VLM作为控制器的图像恢复系统,能够自主规划任务顺序并选择合适的专家模型[9] CleanBench数据集 - 包含150K合成数据和80K真实世界数据,涵盖夜景、雨天、雾天、雪天等多种恶劣天气条件[12][15][18] - 每条训练样本是一个三元组(用户指令、退化图像、响应),支持训练与评估[18][19] - 填补了真实世界图像恢复数据的空白,推动社区发展[52] 两阶段训练框架 - 第一阶段监督微调(SFT)使用合成数据,目标是让VLM初步掌握图像恢复任务[23][25] - 第二阶段MRRHF对齐算法结合离线采样与在线采样策略,引入熵正则化项提升模型稳定性与泛化能力[27][30][33] - 总体损失函数由排名损失、微调损失和熵正则化损失三部分组成,协同优化模型[39][40] 实验与结果分析 决策能力对比 - JarvisIR-MRRHF在工具决策能力上显著优于其他策略,得分6.21,排名4.8%[44] - 优于随机顺序和模型、预定义顺序和模型以及人类专家等策略[44] 图像恢复性能对比 - 在夜景、雨天、雾天、雪天四种场景下均优于现有all-in-one方法[45] - 具体指标如MUSIQ在夜景场景达到67.25,雾天场景达到74.22,显著领先其他方法[45] 技术亮点总结 - 首次将VLM应用于图像恢复系统的控制中枢,具备强大的上下文理解和任务规划能力[52] - 提出MRRHF对齐算法,解决真实数据无标签问题,提升泛化能力[52][53] - 发布高质量数据集CleanBench,推动社区发展[52][53]