VisPlay
搜索文档
无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
机器之心· 2025-12-01 12:06
文章核心观点 - VisPlay框架首次提出自进化强化学习方案,使视觉语言模型仅依赖海量未标注图像数据即可自我演化和提升能力,突破了传统方法对高质量人工标注数据的依赖 [2][3] - 该框架将基础模型分解为“提问者”和“推理者”角色,通过迭代的自我进化机制协同进化,结合GRPO算法及多样性/难度奖励,平衡问题复杂度与答案质量 [3][10] - 实验证明该框架在主流模型上实现了持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著,为可扩展、低成本的多模态智能进化提供了新路径 [5][19] VLM推理能力的数据困境 - 主流提升方式如指令微调或强化学习均面临核心难题:高度依赖高质量标注数据或针对具体任务设计的复杂规则,成本高昂且难以规模化 [7] - 随着模型规模扩大,人工标注的成本和速度已成为进一步提升能力的主要瓶颈,促使研究者探索“自进化”思路以实现自主能力迭代 [7] VisPlay自进化框架设计 - 核心理念是自我进化,从基础预训练VLM出发,分解为“提问者”和“推理者”两大相互作用角色 [10] - “提问者”根据输入图片生成具挑战性但可回答的视觉问题,通过难度奖励和多样性奖励机制指导自我进化质量,鼓励复杂推理并防止问题重复 [11][12] - “推理者”基于图片和问题生成伪标注答案,并以回答准确性作为训练信号 [13] 实验结果与能力突破 - 在八个主流基准数据集上评估,涵盖通用视觉理解、跨模态推理、视觉数学推理及幻觉检测 [16] - Qwen2.5-VL-3B模型经过三轮迭代后,在MMMU上的准确率从基准的19.95%提升至37.11%,在HallusionBench上从32.81%大幅提升至90.54% [17] - Qwen2.5-VL-7B模型经过三轮迭代后,在MMMU上的准确率从基准的23.10%提升至38.27%,在HallusionBench上从66.88%提升至92.32% [17] - 框架展现出强大的组合泛化能力,并在训练中未见的复杂推理组合上表现鲁棒,同时通过高质量问答对有效抑制模型“幻觉”现象 [18]