Workflow
WebWatcher
icon
搜索文档
AI动态汇总:DeepSeek线上模型升级至V3.1,字节开源360亿参数Seed-OSS系列模型
中邮证券· 2025-08-26 21:00
证券研究报告:金融工程报告 发布时间:2025-08-26 研究所 分析师:肖承志 SAC 登记编号:S1340524090001 Email:xiaochengzhi@cnpsec.com 研究助理:冯昱文 SAC 登记编号:S1340124100011 Email:fengyuwen@cnpsec.com 近期研究报告 《指数上行重返十年高位,涨幅超 10% 芯片相关 ETF 净流出较多——行业轮动 周报 20250824》 - 2025.08.25 《成长风格显著,中盘表现占优——中 邮因子周报 20250817》 - 2025.08.18 《融资余额新高,创新药光通信调整, 指数预期仍将震荡上行挑战前高—— 行 业 轮 动 周 报 20250810 》 - 2025.08.11 《基本面因子表现不佳,小盘风格明显 — — 中 邮 因 子 周 报 20250803 》 - 2025.08.04 《小市值占优,低波反转显著——中邮 因子周报 20250727》 - 2025.07.28 《微盘股的流动性风险在哪?——微 盘 股 指 数 周 报 20250720 》 - 2025.07.21 《基于宏观经济 ...
首个开源多模态Deep Research智能体,超越多个闭源方案
量子位· 2025-08-15 14:44
开源多模态Deep Research Agent - 首个开源多模态Deep Research Agent整合了网页浏览、图像搜索、代码解释器、内部OCR等多种工具,通过全自动流程生成高质量推理轨迹 [1] - 采用冷启动微调和强化学习优化决策,使模型能自主选择合适的工具组合和推理路径 [1] - 解决跨模态、跨工具、多步骤任务需要具备深度研究能力的Agent [5] 技术方案 - WebWatcher技术方案覆盖从数据构建到训练优化的完整链路,包含三大环节:多模态高难度数据生成、高质量推理轨迹构建与后训练、高难度基准评测 [6] - 多模态高难度数据生成采用全自动多模态数据生成流程,在真实互联网知识分布下生成复杂、跨模态、链路不确定的任务样本 [8] - 高质量推理轨迹构建与后训练采用Action-Observation驱动的轨迹生成方法,通过监督微调和GRPO强化学习提升决策能力 [14] 数据生成方法 - 在多源网页中进行随机游走采样,构建多领域实体图谱,问题解决路线难以预设 [10] - 生成问题时刻意隐藏关键信息并引入模糊指代词描述,迫使模型进行跨模态推理 [11] - 通过QA-to-VQA转换模块将复杂问题样本扩展为多模态版本,依赖跨模态理解能力 [12] 性能表现 - 在HLE-VL多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数领先GPT-4o(9.8%)和Gemini2.5-flash(9.2%) [20] - 在MMSearch评测中Pass@1得分55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)大幅领先 [21] - 在LiveVQA场景下Pass@1成绩58.7%,领先Gemini2.5-flash(41.3%)和GPT-4o(34.0%) [22] - 在BrowseComp-VL基准上以27.0%的平均得分领先GPT-4o(13.4%)和Gemini2.5-flash(13.0%) [23]