Workflow
视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成

核心观点 - 阿里巴巴通义实验室推出VRAG-RL框架,通过强化学习算法提升视觉语言模型在检索、推理和理解视觉信息方面的能力,解决传统RAG方法处理视觉丰富信息时的局限性 [1][2] - VRAG-RL引入视觉感知动作空间和多专家采样策略,实现从粗粒度到细粒度的信息聚焦,显著提升模型性能 [9][10] - 该框架通过多维度奖励机制和GRPO算法优化检索与推理路径,形成闭环优化,并在多个基准数据集上表现优于现有方法 [12][13][15][17] 技术革新 - 视觉感知动作空间:VRAG-RL定义区域选择、裁剪、缩放等多样化动作,使模型逐步聚焦信息密集区域,精准提取关键视觉信息 [9] - 多专家采样策略:大规模模型与专家模型协同工作,结合推理能力和精确标注能力,提升训练效果 [10] - 强化学习训练:采用GRPO算法优化多轮交互,本地部署搜索引擎降低调用成本,增强泛化能力 [15] 性能表现 - 基准测试:在SLIDEVOA、VIDOSEEK、MMLONGBENCH等数据集上,VRAG-RL在单跳/多跳推理、文本/图表/布局等任务中全面领先 - 3B模型:整体性能达53.5分,远超Vanilla RAG(11.2分)和Search-R1(14.1分) [17] - 7B模型:整体性能提升至57.1分,逻辑任务得分达74.8分 [19] - 多轮交互优势:支持动态调整检索策略,效率与深度双重提升 [20] 未来方向 - 拓展模型能力,引入更多模仿人类处理复杂信息的动作 [22] - 减少幻觉现象,通过先进架构和训练方法提升准确性 [22]