查询规划
搜索文档
系统学习Deep Research,这一篇综述就够了
机器之心· 2026-01-01 12:33
Deep Research (DR) 综述的核心观点 - 大模型应用正从对话与创意写作,走向解决开放、复杂的研究型问题,催生了Deep Research这一新方向,旨在超越传统RAG静态的“一次检索+一次生成”范式,以支撑多步推理与长期研究流程[2] - 来自山东大学、清华大学、CMU、UIUC、腾讯等机构的团队发布了目前最全面的深度研究智能体综述《Deep Research: A Systematic Survey》,系统性地提出了三阶段能力发展路径,并从系统视角梳理了关键组件及训练优化方法[2] Deep Research 的定义与能力演进路径 - DR并非具体模型或技术,而是一条从信息获取到完整科研流程的逐步演进能力路径[5] - **阶段1:Agentic Search**:模型具备主动搜索与多步信息获取能力,能根据中间结果动态调整查询策略,核心目标是持续找对关键信息[5] - **阶段2:Integrated Research**:模型能对多源证据进行理解、筛选和整合,最终生成逻辑连贯的报告[6] - **阶段3:Full-stack AI Scientist**:模型扩展到完整科研闭环,具备提出研究假设、设计执行实验、基于结果反思与修正的能力,强调自主性与长期目标驱动的科研能力[6] - 能力对比显示,从标准RAG到Full-stack AI Scientist,智能体的动作空间从Narrow变为Broad,推理视野从Single变为Long-horizon,工作流从Fixed变为Flexible,输出形式从Short Span发展为Academic Paper[8] Deep Research 的四大核心组件 - **查询规划**:负责决定下一步查询什么信息,将“如何提问”纳入推理过程,使模型能在多轮研究中动态调整路径,具体分为顺序规划、并行规划和树状规划三类策略[10][11] - **信息获取**:从三个维度归纳方法:1) 何时检索:根据当前不确定性与信息缺口动态判断,避免冗余或过早依赖外部信息;2) 检索什么:从Web或知识库检索多模态或纯文本信息;3) 如何过滤:通过相关性判断、一致性校验或证据聚合机制筛选整合噪声较高的检索结果[12][13][14] - **记忆管理**:作为支撑DR系统长期运行与持续推理的核心基础设施,提供状态延续和经验累积,过程拆解为记忆巩固、记忆索引、记忆更新与记忆遗忘四个相互关联的阶段[15] - **答案生成**:强调结论与证据的对应关系及论证过程的逻辑一致性,需要智能体显式整合多源证据与中间推理结果,使输出支持事实核验与过程回溯[17] Deep Research 系统的训练与优化方法 - **提示工程**:通过精心设计多步提示构建研究流程,引导模型执行规划、检索与生成等步骤,适合快速构建原型,但效果依赖提示设计且泛化能力有限[20] - **监督微调**:利用高质量推理轨迹对智能体进行监督微调,直观有效,但获取覆盖复杂研究行为的标注数据成本较高[21] - **智能体强化学习**:通过强化学习信号直接优化DR智能体在多步决策过程中的行为策略,无需复杂人工标注,主要分为两种做法[22] - **端到端优化**:联合优化查询规划、检索、信息整合与报告生成等多个环节,有助于协调模块,但面临奖励稀疏、训练不稳定及采样成本高的问题[26] - **优化特定模块**:仅对查询规划或调度等关键模块施加强化学习信号,降低训练难度,更易于在现有系统中落地[26] Deep Research 面临的核心挑战 - **内部知识与外部知识的协同**:研究型智能体需在自身参数化知识与外部检索信息之间做出动态权衡,决定何时依赖内部推理、何时调用搜索工具[24] - **训练算法的稳定性**:面向长线任务的训练依赖强化学习等方法,但优化过程容易出现策略退化或熵坍缩等问题,使智能体过早收敛到次优行为模式,限制其探索多样化推理路径[24] - **评估方法的构建**:如何合理评估研究型智能体仍是开放问题,综述系统梳理了现有benchmark,但构建可靠高效的评估方法仍有待探索,尤其在开放式任务中对report-level输出的全面评估[25][27] - 当前广泛采用的LLM-as-a-judge范式在实践中受顺序偏差、偏好hacking等问题影响,限制了其作为测评方法的可靠性[27] - **记忆模块的构建**:是DR系统中最具挑战性的部分之一,需在记忆容量、检索效率与信息可靠性之间取得平衡,并将记忆机制稳定融入端到端训练流程[28] 行业现状与未来展望 - Deep Research代表了智能体在能力、动作空间及应用边界上的一次转变:从单轮的答案生成,走向面向开放问题的深度研究[30] - 该方向目前仍处于早期阶段,未来重要问题是如何在开放环境中构建既具自主性、又具可信性的Deep Research智能体[30] - 相关综述将持续更新,以总结该领域的最新进展[30]