Workflow
记忆管理
icon
搜索文档
系统学习Deep Research,这一篇综述就够了
机器之心· 2026-01-01 12:33
Deep Research (DR) 综述的核心观点 - 大模型应用正从对话与创意写作,走向解决开放、复杂的研究型问题,催生了Deep Research这一新方向,旨在超越传统RAG静态的“一次检索+一次生成”范式,以支撑多步推理与长期研究流程[2] - 来自山东大学、清华大学、CMU、UIUC、腾讯等机构的团队发布了目前最全面的深度研究智能体综述《Deep Research: A Systematic Survey》,系统性地提出了三阶段能力发展路径,并从系统视角梳理了关键组件及训练优化方法[2] Deep Research 的定义与能力演进路径 - DR并非具体模型或技术,而是一条从信息获取到完整科研流程的逐步演进能力路径[5] - **阶段1:Agentic Search**:模型具备主动搜索与多步信息获取能力,能根据中间结果动态调整查询策略,核心目标是持续找对关键信息[5] - **阶段2:Integrated Research**:模型能对多源证据进行理解、筛选和整合,最终生成逻辑连贯的报告[6] - **阶段3:Full-stack AI Scientist**:模型扩展到完整科研闭环,具备提出研究假设、设计执行实验、基于结果反思与修正的能力,强调自主性与长期目标驱动的科研能力[6] - 能力对比显示,从标准RAG到Full-stack AI Scientist,智能体的动作空间从Narrow变为Broad,推理视野从Single变为Long-horizon,工作流从Fixed变为Flexible,输出形式从Short Span发展为Academic Paper[8] Deep Research 的四大核心组件 - **查询规划**:负责决定下一步查询什么信息,将“如何提问”纳入推理过程,使模型能在多轮研究中动态调整路径,具体分为顺序规划、并行规划和树状规划三类策略[10][11] - **信息获取**:从三个维度归纳方法:1) 何时检索:根据当前不确定性与信息缺口动态判断,避免冗余或过早依赖外部信息;2) 检索什么:从Web或知识库检索多模态或纯文本信息;3) 如何过滤:通过相关性判断、一致性校验或证据聚合机制筛选整合噪声较高的检索结果[12][13][14] - **记忆管理**:作为支撑DR系统长期运行与持续推理的核心基础设施,提供状态延续和经验累积,过程拆解为记忆巩固、记忆索引、记忆更新与记忆遗忘四个相互关联的阶段[15] - **答案生成**:强调结论与证据的对应关系及论证过程的逻辑一致性,需要智能体显式整合多源证据与中间推理结果,使输出支持事实核验与过程回溯[17] Deep Research 系统的训练与优化方法 - **提示工程**:通过精心设计多步提示构建研究流程,引导模型执行规划、检索与生成等步骤,适合快速构建原型,但效果依赖提示设计且泛化能力有限[20] - **监督微调**:利用高质量推理轨迹对智能体进行监督微调,直观有效,但获取覆盖复杂研究行为的标注数据成本较高[21] - **智能体强化学习**:通过强化学习信号直接优化DR智能体在多步决策过程中的行为策略,无需复杂人工标注,主要分为两种做法[22] - **端到端优化**:联合优化查询规划、检索、信息整合与报告生成等多个环节,有助于协调模块,但面临奖励稀疏、训练不稳定及采样成本高的问题[26] - **优化特定模块**:仅对查询规划或调度等关键模块施加强化学习信号,降低训练难度,更易于在现有系统中落地[26] Deep Research 面临的核心挑战 - **内部知识与外部知识的协同**:研究型智能体需在自身参数化知识与外部检索信息之间做出动态权衡,决定何时依赖内部推理、何时调用搜索工具[24] - **训练算法的稳定性**:面向长线任务的训练依赖强化学习等方法,但优化过程容易出现策略退化或熵坍缩等问题,使智能体过早收敛到次优行为模式,限制其探索多样化推理路径[24] - **评估方法的构建**:如何合理评估研究型智能体仍是开放问题,综述系统梳理了现有benchmark,但构建可靠高效的评估方法仍有待探索,尤其在开放式任务中对report-level输出的全面评估[25][27] - 当前广泛采用的LLM-as-a-judge范式在实践中受顺序偏差、偏好hacking等问题影响,限制了其作为测评方法的可靠性[27] - **记忆模块的构建**:是DR系统中最具挑战性的部分之一,需在记忆容量、检索效率与信息可靠性之间取得平衡,并将记忆机制稳定融入端到端训练流程[28] 行业现状与未来展望 - Deep Research代表了智能体在能力、动作空间及应用边界上的一次转变:从单轮的答案生成,走向面向开放问题的深度研究[30] - 该方向目前仍处于早期阶段,未来重要问题是如何在开放环境中构建既具自主性、又具可信性的Deep Research智能体[30] - 相关综述将持续更新,以总结该领域的最新进展[30]
拥抱 AGI 时代的中间层⼒量:AI 中间件的机遇与挑战
36氪· 2025-08-05 17:52
大模型发展趋势 - 模型能力持续跃迁 从文本生成到多模态理解与推理 语言能力显著增强 GPT-4在复杂问题处理和文本生成方面远超GPT-3[1] 多模态能力突破 GPT-4o支持文本、音频、图像和视频的任意组合输入输出[2] 推理能力深化 o1模型通过强化学习生成内部思维链 在编程和数学推理领域表现出色[2] 工具使用能力拓展 o3模型具备自主调用和整合外部工具的能力[2] - 其他领先模型展现强大能力 Google的Gemini模型在多模态推理和复杂编码方面表现出色 Anthropic的Claude Sonnet 4在编程和推理方面表现优异[3] - 模型生态日益开放 开源模型兴起 Meta发布LLaMA系列 国内外团队推出QWen、DeepSeek、Kimi、Mistral等高质量开源模型[4] 开源模型能力赶超 部分开源模型在特定任务上逼近或超越专有模型 如DeepSeek R1和Kimi K2在推理和代码生成方面表现突出[4] AI应用演进路径 - 应用形态变革 从聊天机器人到组织级智能体 分为五个层级 Level 1具备对话语言能力 如早期ChatGPT[5] Level 2具备人类水平问题解决能力 如DeepSeek R1[5] Level 3能够代表用户采取行动 如Manus、Claude Code[6] Level 4能够辅助发明和发现[6] Level 5能够执行整个组织工作[6] - AI Agent爆发式增长 通用Agent如Manus、Genspark、ChatGPT Agent 通过集成工具提供一站式服务[8] 专业Agent如Claude Code、Gemini CLI、Qwen Code等Coding Agent 以及Cursor、Trae、Kiro等AI Coding IDE 提升开发效率[9] - 通用Agent与垂直Agent并存互补 垂直Agent需要深度集成领域知识、专有数据和特定工具 如企业智能客服需精准理解产品手册和服务条款[10] 基础模型无法快速适应业务变化 垂直Agent成为必然选择[11] AI中间件机遇 - Agent研发提效 提供一站式研发框架 抽象封装底层LLM 支持ReAct模板 集成RAG、记忆库和外部工具插件[13] 引入无服务器架构作为运行时 弹性扩展且降低运维成本[14] 提供Agent评估框架 模拟环境验证决策和输出质量[14] - 上下文工程 提供上下文模板和编排工具 自动拼接最优提示组合[15] 结合模型注意力机制特点 对上下文进行缓存和裁剪优化 如保持Prompt前缀稳定利用KV-Cache提速[15] 实现上下文压缩策略 如对话摘要、索引引用和分层内存[18] - 记忆管理 提供短期和长期记忆功能 短期记忆如多轮对话内容和工具结果 长期记忆如用户偏好和业务知识库[19] 统一管理不同层次记忆 提供API读写外部数据 实现记忆压缩和更新策略[19] - 工具使用与扩展 建立标准化工具接入机制 如Model Context Protocol (MCP) 封装外部数据源或API[20] 提供工具聚合产品 按需调用行业常用工具[20] 引入工具调度优化算法 提升工具使用准确率[21] - 沙箱环境与安全 提供受控的沙箱运行环境 隔离代码执行和网络访问[22] 制定工具权限和调用限制 设置人工审批流程[22] 支持强化学习微调[23] - 多智能体协作 提供多Agent管理和编排功能 提升任务并行处理能力和专业性[24] 设计通信协议和共享内存 避免重复或冲突操作[24] - 多模态支持 集成图像识别、语音合成、OCR、视频理解等模块[25] 提供多模态数据处理管道 实现流式、多模态的人机交互[25] AI中间件挑战 - 复杂上下文构建与优化 管理不断膨胀的上下文 制定合理的组装策略[27] 实现上下文裁剪和压缩机制 平衡准确性和效率[28] - 持久记忆更新与利用 持续更新记忆并确保正确利用 如用户资料变化[29] 攻克记忆组织索引、演化和冲突消解难题[29] - RAG效果优化 提升检索质量和速度 避免错误信息误导[30] 支持大规模知识库的快速语义搜索[30] - Agent行为评估测试 缺乏成熟测试方法 输出具有概率性和多样性[31] 构建模拟环境或沙盒测试框架 判断决策对错[32] - 工具使用风险与管控 提供权限控制 设定工具权限边界[34] 记录详细日志供审计和追溯[35] 设置人类复核流程 确保符合法律规范[35] - 沙箱环境性能与成本权衡 部署沙箱带来性能开销和成本负担[37] 权衡任务执行方式 采用轻量隔离技术[37] 解决跨平台支持问题[38] 未来发展方向 - 短期使命 解决AI应用规模化的最后一公里问题 提供高层次抽象、自动化优化和托管平台[39] - 长期潜力 成为组织智能的神经中枢 连接模型、数据和业务系统[39] - 技术范式更替 从聊天机器人到组织级智能体 工程化与规模化落地成为核心挑战[40]