Workflow
RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场
苹果苹果(US:AAPL) 36氪·2025-10-17 10:44

核心技术突破:DeepMMSearch-R1模型 - 公司提出DeepMMSearch-R1模型,旨在克服现有检索增强生成(RAG)、搜索代理等方法存在的流程僵化、搜索调用过多及查询构造不当等问题[1] - 该模型能够按需执行多轮网络搜索,并可针对文本与图像搜索工具动态生成查询,通过自我反思与自我纠正机制在多轮交互中自适应地生成和优化文本搜索查询[1] - 为提升图像搜索效果,公司引入中间图像裁剪工具(Grounding DINO)来应对背景噪声和干扰性视觉实体带来的挑战,通过生成指代表达动态识别并裁剪图像相关区域,显著提升检索质量和整体性能[3] 方法论与训练流程 - 公司采用两阶段训练流程:首先进行有监督微调(SFT),然后通过GRPO算法进行在线强化学习(RL),目标是让模型学会何时发起搜索、使用哪种工具、搜索什么内容以及如何基于检索内容进行推理[3] - 有监督微调阶段采用Qwen2.5-VL-7B-Instruct作为基础模型,仅对其语言模型模块进行微调,保持视觉编码器和视觉投影层冻结,以保留强大的预训练图像表征能力[9] - 强化学习阶段基于组相对策略优化(GRPO),通过对同一提示词下生成的候选回复进行比较来提升训练稳定性,优化目标通过带截断的重要性加权代理实现[10] - 奖励机制采用结合事实准确性与结构合规性的复合奖励函数,使用gpt-5-chat-latest作为奖励模型判断预测结果语义一致性,正确性得分为二元变量,格式得分用于衡量输出是否遵循结构化格式[12] 数据集构建 - 公司构建了新的数据集DeepMMSearchVQA,该数据集包含多样化多跳视觉问答样本,以多轮对话形式呈现,并在不同知识类别之间保持平衡分布,涵盖既需要搜索又无需搜索的问题类型[3][7] - 从InfoSeek训练集随机选取20万个样本,生成带工具标签、推理步骤及网页检索信息的多轮对话数据,经质量过滤后得到约4.7万条精炼对话样本,最终采样1万个视觉问答样本构成训练语料[7] 性能表现与实验结果 - 配备网络搜索功能的多模态大语言模型性能显著优于RAG工作流和基于提示的搜索代理基线模型,DeepMMSearch-R1-7B(RL)相较于RAG工作流和基于提示的search agent分别取得+21.13%和+8.89%的性能提升,整体表现与OpenAI o3相当[13] - 裁剪图像搜索以及蒸馏得到的自我反思与自我纠正能力显著提升模型性能,随着自我反思与自我纠正机制的引入与蒸馏,模型整体性能得到提升[14] - 采用LoRA模块进行的SFT以及带有KL惩罚项的在线GRPO训练能够保持模型的通用视觉问答能力,在多个数据集上的性能保持稳定,表明模型在学习与网络搜索工具交互的同时有效保留了其通用的视觉理解与推理能力[19][20]