Workflow
视觉语言大模型(VLMs)
icon
搜索文档
AGILE:视觉学习新范式!自监督+交互式强化学习助力VLMs感知与推理全面提升
机器之心· 2025-10-20 15:48
现有视觉语言大模型(VLMs)在多模态感知和推理任务上仍存在明显短板:1. 对图像中的细粒度视觉信息理解有限,视觉感知和推理能力未被充分激发;2. 强化 学习虽能带来改进,但缺乏高质量、易扩展的 RL 数据。 AGILE 提出一种全新的自监督学习范式,将「智能体交互」迁移至多模态大模型的强化学习训练中,通过「模型生成动作代码 + 视觉环境反馈」的循环式交互过 程,让模型像人一样边观察、边推理、边学习,从而显著提升模型视觉感知与逻辑推理能力。 Title:Agentic Jigsaw Interaction Learning for Enhancing Visual Perception and Reasoning in Vision-Language Models Paper:https://arxiv.org/pdf/2510.01304 Project Page:https://yuzeng0-0.github.io/AGILE/ Dataset:https://huggingface.co/datasets/YuZeng260/AGILE Code:https://github.com/yuzeng0- ...