多模态深度研究

搜索文档
首个开源多模态Deep Research智能体,超越多个闭源方案
量子位· 2025-08-15 14:44
开源多模态Deep Research Agent - 首个开源多模态Deep Research Agent整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具,通过全自动流程生成高质量推理轨迹 [1] - 采用冷启动微调和强化学习优化决策,使模型能自主选择合适的工具组合和推理路径 [1] - 解决跨模态、跨工具、多步骤任务需要具备深度研究能力的Agent [5] 技术方案 - WebWatcher技术方案覆盖从数据构建到训练优化的完整链路,包含三大环节:多模态高难度数据生成、高质量推理轨迹构建与后训练、高难度基准评测 [6] - 多模态高难度数据生成采用全自动多模态数据生成流程,在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本 [8] - 高质量推理轨迹构建与后训练采用Action-Observation驱动的轨迹生成方法,通过监督微调和GRPO强化学习提升决策能力 [14] 数据生成方法 - 在多源网页中进行随机游走采样,构建多领域实体图谱,问题解决路线难以预设 [10] - 生成问题时刻意隐藏关键信息并引入模糊指代词描述,迫使模型进行跨模态推理 [11] - 通过QA-to-VQA转换模块将复杂问题样本扩展为多模态版本,依赖跨模态理解能力 [12] 性能表现 - 在HLE-VL多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数领先GPT-4o(9.8%)和Gemini2.5-flash(9.2%) [20] - 在MMSearch评测中Pass@1得分55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先 [21] - 在LiveVQA场景下Pass@1成绩58.7%,领先Gemini2.5-flash(41.3%)和GPT-4o(34.0%) [22] - 在BrowseComp-VL基准上以27.0%的平均得分领先GPT-4o(13.4%)和Gemini2.5-flash(13.0%) [23]