xAI Deep Search

搜索文档
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 20:37
产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统,能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的跃迁,可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估,Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色,在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值,OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳,提供完整项目文件且网页功能和美观性达标,五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令,存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系,Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估,各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google,OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线,但消除短板、触及天花板需市场耐心,Agent 产品下一级阶梯或更快降临[162][164]
Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
海外独角兽· 2025-04-21 21:13
作者:Krystal 编辑:penny Deep Research 产品可被理解为 一个以大模型能力为基础、集合了检索与报告生成的端到端系统,对 信息进行迭代搜索和分析,并生成详细报告作为输出。 参考 Han Lee 的 2x2 分析框架,目前 Deep Research 类产品在 输出深度、训练程度 两大维度呈现分 异。 输出深度 即产品在先前研究成果的基础上进行了多少次迭代循环以收集更多信息,可进一步被 理解为 Agentic 能力的必要基础。 低训练程度 指代经过人工干预和调整的系统,比如使用人工调整 的 prompt,高训练程度则是指利用机器学习对系统进行训练。 从 2024 年末问世的 Google Deep Research,到 2024 年 2 月以来密集发布的 OpenAI Deep Research、 Perplexity、xAI Deep Search、Manus,Deep Research 成为各家 Agent 产品角逐的白热化赛道。 和传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的一次跃迁,可能也将成为具 有阶段代表性的经典产品形态。 ...