核心观点 - 字节与南洋理工大学联合开发的MMSearch-R1系统通过强化学习训练多模态模型实现自主按需搜索能力 在知识密集型视觉问答任务中性能超越同规模传统RAG模型 并减少32 9%搜索次数[1][3][21] - 该系统集成图像和文本搜索工具 采用GRPO强化学习算法 通过奖励函数优化搜索行为 构建了搜索需求均衡的FVQA数据集进行训练[11][13][14][15][17] - 实验显示7B参数的MMSearch-R1模型在FVQA-test和InfoSeek等任务中平均准确率比同规模RAG基线高3 同时达到32B模型RAG基线的性能水平[21][22] 研究方法 多模态搜索工具 - 集成Google Lens图像搜索工具 可匹配网页标题和缩略图以识别视觉元素[13] - 文本搜索工具链路由Google Search JINA Reader和语言模型组成 可获取相关网页内容摘要[13] 强化学习训练 - 采用GRPO算法实现多轮对话与搜索的Rollout过程 模型可选择调用搜索工具或直接回答[14] - 奖励函数包含0 9权重的准确性得分和0 1权重的格式得分 对依赖搜索的正确答案施加0 1惩罚因子[15] 数据集构建 - FVQA数据集通过MetaCLIP元数据采样 GPT-4o生成问答对 InfoSeek样本补充等方式构建 包含3400个需搜索样本和1600个无需搜索样本[17][19][20] 实验结果 - 7B模型在减少32 9%搜索次数(SR)情况下 准确率(Acc)达到54 6 超过同规模RAG基线51 6 接近32B模型RAG基线55 1[21][22] - 强化学习相比监督微调能以更少训练样本获得更大性能提升 搜索惩罚机制有效塑造按需搜索行为[24][25] - 模型同时提升RAG工作流性能(左图)和自主回答能力(右图) 显示更强的知识挖掘与结果处理能力[22]
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
量子位·2025-07-08 15:30