Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

Deep Research产品概述与市场格局 - Deep Research是一种以大模型为基础，集成了检索与报告生成的端到端系统，通过对信息进行迭代搜索和分析，最终输出详细报告[3] - 自2024年末至2025年初，多家公司密集发布了Deep Research产品，包括Google Deep Research (2024-12-11)、OpenAI Deep Research (2025-02-03)、Perplexity (2025-02-15)、xAI Deep Search (2025-02-18)和Manus (2025-03-06)，标志着该赛道竞争白热化[3][8][9] - 与传统的LLM Search产品相比，Deep Research通过嵌入系列推理模型和采用多次搜索、异步返回的模式，实现了自主计划、反思和行动，是迈向Agent产品雏形的一次关键跃迁[5] 测评产品核心能力比较 - 在多模态支持上，除Google和xAI外，OpenAI、Perplexity和Manus均支持图片等多模态输出，其中OpenAI和Manus还支持多模态输入[9] - 在上下文长度上，Google Deep Research支持高达100万token，Perplexity支持32,000 tokens，而OpenAI和Manus未披露，xAI支持“lm token”[9] - 在数据源上，各产品主要依赖其关联的搜索引擎，如Google使用其搜索原生索引、Scholar、YouTube等，OpenAI和Perplexity使用Bing，xAI和Manus使用在线网页[9] - 在商业模式与配额上，各产品定价策略不同：Google面向Advanced用户收费20美元/月；OpenAI向Plus用户(20美元/月)提供10次/月，向Pro用户(200美元/月)提供100次/月；Perplexity免费用户有3次/日配额，Pro用户(20美元/月)有500次/日配额；xAI免费使用，SuperGrok用户收费30美元/月；Manus采用邀请制，Starter用户(39美元/月)有3900 credits，Pro用户(199美元/月)有19900 credits[9] Tool Use能力测评结果 - 在线检索能力（小众内容定位）：OpenAI表现突出，是唯一成功完成冷门电影检索（Task 1）和最新书籍检索（Task 2）的产品，验证了其在小众内容检索上的“一骑绝尘”能力[20][22][34] - 数据分析能力（基于财报的因子计算）：五家产品均未成功计算出Tesla EPS增速跳跃因子的正确数值，但OpenAI和Manus在计算对象准确性和完备度上表现相对成熟，而xAI和Google未完成计算，Perplexity则计算对象错位[39][42][45][46][49][50] - 编程能力（智慧城市设计）：Manus表现最佳，是唯一提供了完整、可运行且美观的网页项目文件的产品；OpenAI提供了可运行但美观度不足的网页；而Google、xAI和Perplexity提供的代码均无法正常运行[57][59][64][66][70][71] Instruction Following能力测评结果 - 文献分析能力（多话题科研综述）：五家产品均无法完全遵循所有指令，存在“选择性执行”或内容逻辑偏差的问题。OpenAI在部分段落（如末段总结和表格）符合规范，但首段无视字数要求；xAI严格执行了字数要求但分析深度不足；Perplexity完全遵循了第二段指令但首段偏离主题；Google和Manus则在内容逻辑和字数体例上均未严格遵循指令[75][78][81][83][91][92][95][98][101][102] - 路线设计能力（旅游方案规划）：在一个六维评估体系（满分30分）中，Google、Manus和OpenAI的方案得分接近满分（29分），但在跨城交通时间上均有扣分；Perplexity方案得28分，目的地较同质化；xAI方案得27分，在咖啡馆体验丰富度上明显不足，有走马观花之感[106][107][108][115][122][130] 报告输出能力测评结果 - 基于商业研报场景的五维度评估，各产品报告输出能力排序为：OpenAI (90分) > Manus (85分) > Perplexity = xAI (70分) >> Google (60分)[136] - OpenAI的分析最具专业性和拟真性，是唯一精确锚定并比较了三大竞品公司的产品，报告稍加修改即可作为咨询建议阅读[137][139] - Manus的优势在于分析维度全面分解和自主绘图意识强，是唯一明确提到目标公司存在估值泡沫风险的产品，但在信息准确性和论证充分性上有不足[140][143][145] - Perplexity和xAI的报告质量基本达标，但观点清晰度或创新性有所欠缺，xAI受限于输出媒介无法输出分析图表[147][149][150][153][154] - Google的报告停留于整合基本事实，分析观点不明确，方法存在偏差，且信息密度低，以“加长版”扩写为主[159][162][166] 总结：各产品特点与Agent发展前景 - Google Deep Research：倾向于以报告篇幅取胜，但模型幻觉问题仍有待干预[167] - OpenAI Deep Research：综合表现最强，长尾内容检索能力是行业标杆，但在数据分析和编程维度的Tool Use潜力尚未完全实现[167] - Perplexity：在各任务中表现基本合格，但缺乏突出的单项产品能力[167] - xAI Deep Search：优势在于保留了短平快的检索底色，在执行字数要求等指令时表现稳定，但多目标规划能力较弱[167] - Manus：作为衔接了Deep Research和其他Agent功能的产品，其Tool Use能力有显著优势，但Instruction Following能力仍有空白[167] - 总体而言，Deep Research作为Agent产品的初代形态，在Agent内生能力和长文本报告输出上仍有短板，达到能力天花板仍需时间，但预示着Agent产品的下一级阶梯将更快降临[167]