Workflow
Perplexity/DeepResearch
icon
搜索文档
80个团队入局,AI深度研究赛道,究竟“卷”向何方 | Jinqiu Select
锦秋集· 2025-06-24 23:14
深度研究系统行业概览 - 2025年AI Agent探索浪潮中"深度研究"类产品最早成功落地 从2024年底谷歌发布首个产品开始 OpenAI Anthropic等巨头迅速跟进 已有超过80个团队投入该领域 [1] - 行业竞争焦点从单一模型能力转向系统架构 工程优化与应用场景适配度的综合比拼 评估体系从通用基准演进为高度专业化测评 [2] - 多智能体协同架构成为前沿方向 需解决幻觉控制 安全隐私和过程可解释性三大核心挑战 未来系统将向知识创造路径演进 [3] 技术架构与系统比较 - 商业系统如OpenAI/DeepResearch和Gemini/DeepResearch依托专有大模型 在上下文长度和复杂推理占优 而Perplexity/DeepResearch通过优化开源模型实现竞争力 [5] - 工具集成呈现"大而全"与"小而精"分野 AutoGLM和Manus构建全能平台 Nanobrowser专注网页交互 n8n擅长API集成与工作流自动化 [6] - 任务规划方面 OpenAI/AgentsSDK长于层级化分解 Agent-RL/ReSearch利用强化学习提升鲁棒性 smolagents通过多智能体协作提升并行效率 [6] 应用场景适配性 - 学术研究场景要求引用严谨性和方法论分析能力 OpenAI/DeepResearch和Perplexity/DeepResearch表现突出 [8] - 企业决策场景注重信息时效性和数据整合 Gemini/DeepResearch和Manus占据优势 [8] - 个人知识管理场景侧重易用性和隐私保护 Open-Manus和nickscamara/open-deep-research等开源方案更适用 [8] 评估体系演进 - 商业系统在HLE和GAIA等综合认知测试保持优势 但专门化评测中不同系统特长显现 如Perplexity/DeepResearch在SimpleQA事实问答领先 AutoGLM在WebArena网页自动化优异 [9] - 评估体系深度专业化 涌现AAAR-1 0 DSBench SciCode MASSW等150+任务评测 覆盖科研助理能力 数据科学 科学工作流等细分领域 [10] - 多模态评估兴起 MMSci ScienceQA GMAI-MMBench等基准检验跨模态理解能力 [10] 实现技术与挑战 - 主流架构包括单体式 流水线 多智能体和混合式四种 多智能体架构通过角色分工实现并行处理 但需解决协调一致性问题 [13][14] - 分布式推理和并行搜索技术优化计算效率 如LightLLM VLLM框架 Perplexity/DeepResearch可并行发出数十查询 [15] - 核心挑战包括幻觉控制(来源标定技术) 隐私保护(数据隔离) 可解释性(展示推理过程) [17][18] 未来技术方向 - 突破上下文窗口限制 通过信息压缩(分层处理 语义导航)和外部记忆架构(检索增强生成)实现"无限记忆" [25][27][28] - 神经与符号推理融合 神经网络处理创造性任务 符号系统负责形式化验证 知识图谱实现动态演化 [30][31] - 从相关性到因果推理 开发因果推断机制(构建因果图 量化效应)和干预建模技术(反事实推理) [33][34] - 多维不确定性建模 区分知识局限 固有随机性和模型缺陷 集成贝叶斯推理系统更新信念 [35][36][37]