Workflow
自进化强化学习
icon
搜索文档
VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
具身智能之心· 2025-12-02 17:30
文章核心观点 - VisPlay研究首次提出自进化强化学习框架,使视觉语言模型仅通过海量未标注图像数据实现自我演化和能力提升[2] - 该框架将基础模型分解为提问者与推理者角色,通过迭代自我进化机制协同进化,结合GRPO算法和多样性/难度奖励平衡问题复杂度与答案质量[2][10] - 实验证明VisPlay在Qwen2.5-VL和MiMo-VL等主流模型上实现持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著[3] 技术背景与挑战 - 当前VLM提升复杂推理能力依赖耗费巨大的人工标注数据或启发式奖励,成本高昂且难以规模化[1] - 随着模型规模扩大,人工标注成本速度已跟不上模型演化需求,成为能力提升主要瓶颈[5] VisPlay框架设计 - 核心理念为自我进化,从基础预训练VLM出发分解为提问者和推理者两大相互作用角色[8] - 提问者负责生成具有挑战性但可回答的视觉问题,采用难度奖励和多样性奖励机制指导进化质量[10] - 推理者基于图片和问题生成伪标注答案,采用回答准确性作为训练信号[12] - 通过奖励机制有效解决自进化模型中答案质量低和问题重复度高的问题[11] 实验结果与性能 - 在八个主流基准数据集评估显示VisPlay实现一致且显著准确率增益[15] - Qwen2.5-VL-3B模型在MMMU任务从基准19.95提升至37.11,视觉数学推理从26.14提升至35.15,幻觉检测从32.81大幅提升至90.54[16] - Qwen2.5-VL-7B模型在MMMU任务从23.10提升至38.27,幻觉检测从66.88提升至92.32[16] - MiMo-VL-7B模型在多个任务上实现稳定提升,如视觉数学推理从41.80提升至46.02[16] - 框架展现出强大组合泛化能力和有效抑制幻觉现象的概率[17]
无需标注图像,VLM也能「自我进化」!RL自我进化框架VisPlay突破视觉推理难题
机器之心· 2025-12-01 12:06
文章核心观点 - VisPlay框架首次提出自进化强化学习方案,使视觉语言模型仅依赖海量未标注图像数据即可自我演化和提升能力,突破了传统方法对高质量人工标注数据的依赖 [2][3] - 该框架将基础模型分解为“提问者”和“推理者”角色,通过迭代的自我进化机制协同进化,结合GRPO算法及多样性/难度奖励,平衡问题复杂度与答案质量 [3][10] - 实验证明该框架在主流模型上实现了持续性能提升,尤其在视觉推理、组合泛化和幻觉减少方面效果显著,为可扩展、低成本的多模态智能进化提供了新路径 [5][19] VLM推理能力的数据困境 - 主流提升方式如指令微调或强化学习均面临核心难题:高度依赖高质量标注数据或针对具体任务设计的复杂规则,成本高昂且难以规模化 [7] - 随着模型规模扩大,人工标注的成本和速度已成为进一步提升能力的主要瓶颈,促使研究者探索“自进化”思路以实现自主能力迭代 [7] VisPlay自进化框架设计 - 核心理念是自我进化,从基础预训练VLM出发,分解为“提问者”和“推理者”两大相互作用角色 [10] - “提问者”根据输入图片生成具挑战性但可回答的视觉问题,通过难度奖励和多样性奖励机制指导自我进化质量,鼓励复杂推理并防止问题重复 [11][12] - “推理者”基于图片和问题生成伪标注答案,并以回答准确性作为训练信号 [13] 实验结果与能力突破 - 在八个主流基准数据集上评估,涵盖通用视觉理解、跨模态推理、视觉数学推理及幻觉检测 [16] - Qwen2.5-VL-3B模型经过三轮迭代后,在MMMU上的准确率从基准的19.95%提升至37.11%,在HallusionBench上从32.81%大幅提升至90.54% [17] - Qwen2.5-VL-7B模型经过三轮迭代后,在MMMU上的准确率从基准的23.10%提升至38.27%,在HallusionBench上从66.88%提升至92.32% [17] - 框架展现出强大的组合泛化能力,并在训练中未见的复杂推理组合上表现鲁棒,同时通过高质量问答对有效抑制模型“幻觉”现象 [18]