Workflow
OpenResearcher
icon
搜索文档
让中小团队也玩得起Deep Research:TAMU/Waterloo团队把研究智能体的训练做成了开源流水线
机器之心· 2026-03-29 13:06
研究背景与痛点 - 训练深度研究智能体(Deep Research Agent)面临高质量、长程研究轨迹数据严重匮乏的瓶颈,现有方案依赖昂贵且不稳定的在线搜索API,或只能生成2-5轮的浅层交互,无法覆盖真实研究中动辄数十至上百轮的复杂推理需求[2] OpenResearcher解决方案概述 - 研究团队提出OpenResearcher,这是一条完全开源、可复现的离线深度研究轨迹合成流水线,是首个能训练出在长程研究任务上与专用系统相媲美的模型的开源流水线[2] - 该方法核心是通过构建包含1500万篇候选文档的本地搜索引擎,由教师模型在完全离线环境中,调用search、open、find三种工具合成了超过9.7万条长程研究轨迹,其中大量轨迹包含100次以上的工具调用[2] - 合成这9.7万条轨迹共涉及约576万次搜索请求,若使用在线API(如Serper API或SerpAPI)成本在5,760美元至28,800美元之间,而离线检索器将成本降至0美元,并具备无速率限制、完全确定性和零外部依赖的优势[34] 流水线具体设计与实施 - **阶段一:高难度问题收集**:从MiroVerse-v0.1中随机采样10%,得到约6,000个问答对,这些问题天然要求长程多跳推理与异构证据整合,实测中教师模型往往需要数十次甚至超过100次工具调用才能作答[12] - **阶段二:离线搜索引擎构建**:采取“答案引导的在线文档收集”策略,一次性在线检索并清洗获得约1万篇含有研究信息的文档(gold documents),将其与从FineWeb采样的约1,500万篇干扰文档(约10万亿tokens)合并构成离线语料库,并使用FAISS建立索引[13] - **阶段三:浏览建模与轨迹合成**:利用search(广泛搜索)、open(获取文档全文)、find(页面内精确查找)三种工具对智能体的在线浏览行为进行抽象,以GPT-OSS-120B为教师模型为每个问题生成16条不同轨迹,最终获得超过9.7万条轨迹,推理深度涵盖十余步到百余步[17][21] 模型训练与性能表现 - **训练设置**:以NVIDIA Nemotron-3-Nano-30B-A3B(30B参数,激活参数仅3.2B)为基座模型,筛选约5.5万条答案正确的轨迹进行监督微调,训练在8张NVIDIA H100 GPU上耗时约8小时完成[19] - **离线深度研究评测**:在BrowseComp-Plus基准数据集上,OpenResearcher-30B-A3B取得54.8%的准确率,较基座模型实现34.0个百分点的绝对提升,并超越GPT-4.1(36.4%)、Claude-4-Opus(36.8%)、Gemini-2.5-Pro(29.5%)、DeepSeek-R1(16.4%)及通义DeepResearch(44.5%)[3][19][22] - **在线深度研究评测**:在BrowseComp、GAIA、xbench-DeepSearch三个依赖在线搜索的基准数据集上,分别取得26.3%、64.1%、65.0%的准确率,全面超越ASearcher-QwQ-32B和WebDancer-QwQ-32B等开源系统,且所有增益完全来自离线合成数据,模型未在在线数据上训练过[20][22] 关键研究发现与洞见 - **失败原因分析**:失败轨迹的平均工具调用次数(71.7次)几乎是成功轨迹(38.4次)的两倍,且额外调用主要集中在search操作上,表明失败源于反复无效的搜索策略,而非探索不充分[24][25] - **训练信号价值**:仅用正确轨迹训练的模型准确率为54.81%,仅用错误轨迹为55.06%,混合全量轨迹为54.46%,三者差异不超过0.6个百分点,表明轨迹中蕴含的过程性信号(如搜索结构、工具调用模式)价值不亚于最终答案的正确性[25][26] - **语料覆盖关键性**:移除gold documents的收集过程后,下游模型准确率从54.81%骤降至6.35%,证明一次性在线文章收集是整条离线合成流水线得以运转的关键步骤[25][26] - **探索轮数边际收益**:准确率和检索gold documents的命中率随最大可探索轮数预算增加而上升,但在约100轮后趋于平缓(准确率约58.3%,命中率约49.3%),表明长程探索有益但存在边际递减效应[27][33] - **工具组合必要性**:消融实验显示,仅能调用search时准确率为43.86%,加入open后升至56.39%,再引入find后达到62.17%,同时工具调用总次数和token消耗下降,表明文档级访问和页面内证据定位是提升精度和降低冗余的关键[28][29] - **证据检索与准确性关系**:只要智能体打开过至少一篇gold document,无论发生在第几轮,最终准确率都能稳定维持在85%以上;从未打开过gold document的轨迹准确率则仅有7.9%[30][32]