xAI Deep Search - 财报，业绩电话会，研报，新闻

xAI Deep Search

搜索文档

Founder Park· 2025-04-23 20:37

产品定义与特点 - Deep Research 产品是以大模型能力为基础、集合检索与报告生成的端到端系统，能迭代搜索和分析信息并生成详细报告[4] - 与传统 LLM Search 产品相比，Deep Research 是迈向 Agent 产品雏形的跃迁，可能成为经典产品形态[6] 产品测评情况 - 测评围绕 Tool Use、Instruction Following、报告输出能力对五家 Deep Research 产品评估，Memory 因自动联网检索难以有效评估[10] Tool Use 能力 - 在线检索中 OpenAI 表现出色，在冷门电影和最新书籍检索任务中唯一成功定位正确内容[20][31] - 数据分析任务里五家产品均未成功计算出正确数值，OpenAI 和 Manus 能力成熟度较高但有偏差[35][47] - 编程任务中 Manus 表现最佳，提供完整项目文件且网页功能和美观性达标，五家产品输出分层明显[57] Instruction Following 能力 - 文献分析任务中五家产品均无法完全遵循指令，存在“选择性执行”和“对牛弹琴”情况[72] - 旅游路线设计采用六维评估体系，Google、Manus、OpenAI 得分接近满分但交通可行性有不足[107][118][123][130] 报告输出能力 - 基于商业研报场景评估，各产品能力排序为 OpenAI > Manus > PPLX = xAI >> Google，OpenAI 兼顾深度与广度[136] 总结与展望 - Deep Research 产品打破外部工具调度和需求执行平均线，但消除短板、触及天花板需市场耐心，Agent 产品下一级阶梯或更快降临[162][164]

Agent

Tool Use

Instruction Following

Memory

Artificial Intelligence

Perplexity

Agent

Tool Use

Instruction Following

Memory

Artificial Intelligence

Perplexity

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

海外独角兽· 2025-04-21 21:13

Deep Research产品概述与市场格局 - Deep Research是一种以大模型为基础，集成了检索与报告生成的端到端系统，通过对信息进行迭代搜索和分析，最终输出详细报告[3] - 自2024年末至2025年初，多家公司密集发布了Deep Research产品，包括Google Deep Research (2024-12-11)、OpenAI Deep Research (2025-02-03)、Perplexity (2025-02-15)、xAI Deep Search (2025-02-18)和Manus (2025-03-06)，标志着该赛道竞争白热化[3][8][9] - 与传统的LLM Search产品相比，Deep Research通过嵌入系列推理模型和采用多次搜索、异步返回的模式，实现了自主计划、反思和行动，是迈向Agent产品雏形的一次关键跃迁[5] 测评产品核心能力比较 - 在**多模态支持**上，除Google和xAI外，OpenAI、Perplexity和Manus均支持图片等多模态输出，其中OpenAI和Manus还支持多模态输入[9] - 在**上下文长度**上，Google Deep Research支持高达100万token，Perplexity支持32,000 tokens，而OpenAI和Manus未披露，xAI支持“lm token”[9] - 在**数据源**上，各产品主要依赖其关联的搜索引擎，如Google使用其搜索原生索引、Scholar、YouTube等，OpenAI和Perplexity使用Bing，xAI和Manus使用在线网页[9] - 在**商业模式与配额**上，各产品定价策略不同：Google面向Advanced用户收费20美元/月；OpenAI向Plus用户(20美元/月)提供10次/月，向Pro用户(200美元/月)提供100次/月；Perplexity免费用户有3次/日配额，Pro用户(20美元/月)有500次/日配额；xAI免费使用，SuperGrok用户收费30美元/月；Manus采用邀请制，Starter用户(39美元/月)有3900 credits，Pro用户(199美元/月)有19900 credits[9] Tool Use能力测评结果 - **在线检索能力（小众内容定位）**：OpenAI表现突出，是唯一成功完成冷门电影检索（Task 1）和最新书籍检索（Task 2）的产品，验证了其在小众内容检索上的“一骑绝尘”能力[20][22][34] - **数据分析能力（基于财报的因子计算）**：五家产品均未成功计算出Tesla EPS增速跳跃因子的正确数值，但OpenAI和Manus在计算对象准确性和完备度上表现相对成熟，而xAI和Google未完成计算，Perplexity则计算对象错位[39][42][45][46][49][50] - **编程能力（智慧城市设计）**：Manus表现最佳，是唯一提供了完整、可运行且美观的网页项目文件的产品；OpenAI提供了可运行但美观度不足的网页；而Google、xAI和Perplexity提供的代码均无法正常运行[57][59][64][66][70][71] Instruction Following能力测评结果 - **文献分析能力（多话题科研综述）**：五家产品均无法完全遵循所有指令，存在“选择性执行”或内容逻辑偏差的问题。OpenAI在部分段落（如末段总结和表格）符合规范，但首段无视字数要求；xAI严格执行了字数要求但分析深度不足；Perplexity完全遵循了第二段指令但首段偏离主题；Google和Manus则在内容逻辑和字数体例上均未严格遵循指令[75][78][81][83][91][92][95][98][101][102] - **路线设计能力（旅游方案规划）**：在一个六维评估体系（满分30分）中，Google、Manus和OpenAI的方案得分接近满分（29分），但在跨城交通时间上均有扣分；Perplexity方案得28分，目的地较同质化；xAI方案得27分，在咖啡馆体验丰富度上明显不足，有走马观花之感[106][107][108][115][122][130] 报告输出能力测评结果 - 基于商业研报场景的五维度评估，各产品报告输出能力排序为：OpenAI (90分) > Manus (85分) > Perplexity = xAI (70分) >> Google (60分)[136] - **OpenAI**的分析最具专业性和拟真性，是唯一精确锚定并比较了三大竞品公司的产品，报告稍加修改即可作为咨询建议阅读[137][139] - **Manus**的优势在于分析维度全面分解和自主绘图意识强，是唯一明确提到目标公司存在估值泡沫风险的产品，但在信息准确性和论证充分性上有不足[140][143][145] - **Perplexity**和**xAI**的报告质量基本达标，但观点清晰度或创新性有所欠缺，xAI受限于输出媒介无法输出分析图表[147][149][150][153][154] - **Google**的报告停留于整合基本事实，分析观点不明确，方法存在偏差，且信息密度低，以“加长版”扩写为主[159][162][166] 总结：各产品特点与Agent发展前景 - **Google Deep Research**：倾向于以报告篇幅取胜，但模型幻觉问题仍有待干预[167] - **OpenAI Deep Research**：综合表现最强，长尾内容检索能力是行业标杆，但在数据分析和编程维度的Tool Use潜力尚未完全实现[167] - **Perplexity**：在各任务中表现基本合格，但缺乏突出的单项产品能力[167] - **xAI Deep Search**：优势在于保留了短平快的检索底色，在执行字数要求等指令时表现稳定，但多目标规划能力较弱[167] - **Manus**：作为衔接了Deep Research和其他Agent功能的产品，其Tool Use能力有显著优势，但Instruction Following能力仍有空白[167] - 总体而言，Deep Research作为Agent产品的初代形态，在Agent内生能力和长文本报告输出上仍有短板，达到能力天花板仍需时间，但预示着Agent产品的下一级阶梯将更快降临[167]

Agent Product

LLM Search

Artificial Intelligence

Artificial Intelligence

Deep Research

xAI Deep Search

Manus