Workflow
DeepMMSearchVQA
icon
搜索文档
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
机器之心· 2025-10-17 10:11
核心技术方案:DeepMMSearch-R1模型 - 提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制自适应地优化搜索查询[1] - 引入中间图像裁剪工具(Grounding DINO)以应对图像背景噪声和干扰性视觉实体,通过生成指代表达来识别并裁剪相关图像区域,从而提升图像搜索的检索质量和整体性能[3] 模型训练方法 - 采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL)[3] - 训练目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容,以及如何基于检索内容进行推理以决定下一步行动[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和投影层冻结,以保留预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过比较同一提示词下的候选回复提升训练稳定性,并采用结合事实准确性与结构合规性的复合奖励函数[10][14] 数据集构建 - 构建了DeepMMSearchVQA数据集,包含多样化多跳视觉问答样本,并以多轮对话形式呈现,在不同知识类别间保持平衡分布[4][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签的多轮对话数据,经质量筛选后得到约4.7万条精炼对话样本,并进一步采样1万个VQA样本作为有监督微调阶段的训练语料[7] 性能表现 - 配备网络搜索功能的多模态大语言模型在性能上显著优于RAG工作流和基于提示的搜索代理基线模型[16] - DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[16] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,SFT阶段使模型具备工具使用能力,而RL阶段通过减少不必要调用来优化工具选择行为[17][19] - 在DynVQA数据集中,模型在87.7%的样本上调用了工具,而在OKVQA中这一比例为43.5%,工具使用行为与数据集特性保持一致[20] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定[23][24]