MGPO

搜索文档
突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO
机器之心· 2025-07-21 12:04
核心观点 - 提出基于视觉 Grounding 的多轮强化学习方法 MGPO,使多模态大模型(LMMs)能在多轮交互中自动预测关键区域坐标,裁剪子图像并整合历史上下文,实现高分辨率图像的精准推理 [1][8] - MGPO 无需额外 Grounding 标注,仅通过最终答案正确性的反馈即可让模型涌现出鲁棒的视觉 Grounding 能力 [2][8] - 相比监督微调(SFT)和 GRPO,MGPO 在高分辨率图像 Benchmark 上表现显著提升,在 MME-Realworld 和 V* Bench 分别提升 5.4% 和 5.2% [18] 方法创新 - 自上而下的可解释视觉推理:赋予 LMMs 问题驱动的视觉搜索机制,提供可解释的视觉 Grounding 输出 [2] - 突破最大像素限制:即使高分辨率图像缩放后模糊,模型仍能准确识别相关区域坐标并从原始图像中裁剪出清晰子图像 [2] - 固定两回合对话模板:解决模型冷启动问题,第一轮要求输出区域坐标,第二轮回答问题 [13] 实验结果 - 在 V* Bench 上,MGPO 达到 76.4 分,超过 GRPO 的 71.2 分和 SFT 的 71.7 分 [18] - 基于 7B 模型和 2.1 万样本训练的 MGPO 模型超过 OpenAI 的 o1(69.7 分)和 GPT-4o(73.9 分)[18] - RL 训练过程中,MGPO 生成的有效 Grounding 坐标比例显著上升,证明其自主涌现视觉 Grounding 能力 [19] 技术原理 - 模拟人类多步视觉推理:先预测关键区域坐标并裁剪子图像,再结合上下文进行推理 [10] - 坐标归一化与子图像裁剪:从原始高分辨率图像中裁剪清晰子图,避免缩放导致的细节丢失 [15] - 仅需标准 VQA 数据即可训练,无需昂贵 Grounding 标注 [8][19]