VLM也能「自我进化」！RL自我进化框架VisPlay突破视觉推理难题

文章核心观点 - VisPlay研究首次提出自进化强化学习框架，使视觉语言模型仅通过海量未标注图像数据实现自我演化和能力提升[2] - 该框架将基础模型分解为提问者与推理者角色，通过迭代自我进化机制协同进化，结合GRPO算法和多样性/难度奖励平衡问题复杂度与答案质量[2][10] - 实验证明VisPlay在Qwen2.5-VL和MiMo-VL等主流模型上实现持续性能提升，尤其在视觉推理、组合泛化和幻觉减少方面效果显著[3] 技术背景与挑战 - 当前VLM提升复杂推理能力依赖耗费巨大的人工标注数据或启发式奖励，成本高昂且难以规模化[1] - 随着模型规模扩大，人工标注成本速度已跟不上模型演化需求，成为能力提升主要瓶颈[5] VisPlay框架设计 - 核心理念为自我进化，从基础预训练VLM出发分解为提问者和推理者两大相互作用角色[8] - 提问者负责生成具有挑战性但可回答的视觉问题，采用难度奖励和多样性奖励机制指导进化质量[10] - 推理者基于图片和问题生成伪标注答案，采用回答准确性作为训练信号[12] - 通过奖励机制有效解决自进化模型中答案质量低和问题重复度高的问题[11] 实验结果与性能 - 在八个主流基准数据集评估显示VisPlay实现一致且显著准确率增益[15] - Qwen2.5-VL-3B模型在MMMU任务从基准19.95提升至37.11，视觉数学推理从26.14提升至35.15，幻觉检测从32.81大幅提升至90.54[16] - Qwen2.5-VL-7B模型在MMMU任务从23.10提升至38.27，幻觉检测从66.88提升至92.32[16] - MiMo-VL-7B模型在多个任务上实现稳定提升，如视觉数学推理从41.80提升至46.02[16] - 框架展现出强大组合泛化能力和有效抑制幻觉现象的概率[17]