Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
海外独角兽·2025-04-21 21:13

Deep Research产品概述与市场格局 - Deep Research是一种以大模型为基础,集成了检索与报告生成的端到端系统,通过对信息进行迭代搜索和分析,最终输出详细报告[3] - 自2024年末至2025年初,多家公司密集发布了Deep Research产品,包括Google Deep Research (2024-12-11)、OpenAI Deep Research (2025-02-03)、Perplexity (2025-02-15)、xAI Deep Search (2025-02-18)和Manus (2025-03-06),标志着该赛道竞争白热化[3][8][9] - 与传统的LLM Search产品相比,Deep Research通过嵌入系列推理模型和采用多次搜索、异步返回的模式,实现了自主计划、反思和行动,是迈向Agent产品雏形的一次关键跃迁[5] 测评产品核心能力比较 - 在多模态支持上,除Google和xAI外,OpenAI、Perplexity和Manus均支持图片等多模态输出,其中OpenAI和Manus还支持多模态输入[9] - 在上下文长度上,Google Deep Research支持高达100万token,Perplexity支持32,000 tokens,而OpenAI和Manus未披露,xAI支持“lm token”[9] - 在数据源上,各产品主要依赖其关联的搜索引擎,如Google使用其搜索原生索引、Scholar、YouTube等,OpenAI和Perplexity使用Bing,xAI和Manus使用在线网页[9] - 在商业模式与配额上,各产品定价策略不同:Google面向Advanced用户收费20美元/月;OpenAI向Plus用户(20美元/月)提供10次/月,向Pro用户(200美元/月)提供100次/月;Perplexity免费用户有3次/日配额,Pro用户(20美元/月)有500次/日配额;xAI免费使用,SuperGrok用户收费30美元/月;Manus采用邀请制,Starter用户(39美元/月)有3900 credits,Pro用户(199美元/月)有19900 credits[9] Tool Use能力测评结果 - 在线检索能力(小众内容定位):OpenAI表现突出,是唯一成功完成冷门电影检索(Task 1)和最新书籍检索(Task 2)的产品,验证了其在小众内容检索上的“一骑绝尘”能力[20][22][34] - 数据分析能力(基于财报的因子计算):五家产品均未成功计算出Tesla EPS增速跳跃因子的正确数值,但OpenAI和Manus在计算对象准确性和完备度上表现相对成熟,而xAI和Google未完成计算,Perplexity则计算对象错位[39][42][45][46][49][50] - 编程能力(智慧城市设计):Manus表现最佳,是唯一提供了完整、可运行且美观的网页项目文件的产品;OpenAI提供了可运行但美观度不足的网页;而Google、xAI和Perplexity提供的代码均无法正常运行[57][59][64][66][70][71] Instruction Following能力测评结果 - 文献分析能力(多话题科研综述):五家产品均无法完全遵循所有指令,存在“选择性执行”或内容逻辑偏差的问题。OpenAI在部分段落(如末段总结和表格)符合规范,但首段无视字数要求;xAI严格执行了字数要求但分析深度不足;Perplexity完全遵循了第二段指令但首段偏离主题;Google和Manus则在内容逻辑和字数体例上均未严格遵循指令[75][78][81][83][91][92][95][98][101][102] - 路线设计能力(旅游方案规划):在一个六维评估体系(满分30分)中,Google、Manus和OpenAI的方案得分接近满分(29分),但在跨城交通时间上均有扣分;Perplexity方案得28分,目的地较同质化;xAI方案得27分,在咖啡馆体验丰富度上明显不足,有走马观花之感[106][107][108][115][122][130] 报告输出能力测评结果 - 基于商业研报场景的五维度评估,各产品报告输出能力排序为:OpenAI (90分) > Manus (85分) > Perplexity = xAI (70分) >> Google (60分)[136] - OpenAI的分析最具专业性和拟真性,是唯一精确锚定并比较了三大竞品公司的产品,报告稍加修改即可作为咨询建议阅读[137][139] - Manus的优势在于分析维度全面分解和自主绘图意识强,是唯一明确提到目标公司存在估值泡沫风险的产品,但在信息准确性和论证充分性上有不足[140][143][145] - PerplexityxAI的报告质量基本达标,但观点清晰度或创新性有所欠缺,xAI受限于输出媒介无法输出分析图表[147][149][150][153][154] - Google的报告停留于整合基本事实,分析观点不明确,方法存在偏差,且信息密度低,以“加长版”扩写为主[159][162][166] 总结:各产品特点与Agent发展前景 - Google Deep Research:倾向于以报告篇幅取胜,但模型幻觉问题仍有待干预[167] - OpenAI Deep Research:综合表现最强,长尾内容检索能力是行业标杆,但在数据分析和编程维度的Tool Use潜力尚未完全实现[167] - Perplexity:在各任务中表现基本合格,但缺乏突出的单项产品能力[167] - xAI Deep Search:优势在于保留了短平快的检索底色,在执行字数要求等指令时表现稳定,但多目标规划能力较弱[167] - Manus:作为衔接了Deep Research和其他Agent功能的产品,其Tool Use能力有显著优势,但Instruction Following能力仍有空白[167] - 总体而言,Deep Research作为Agent产品的初代形态,在Agent内生能力和长文本报告输出上仍有短板,达到能力天花板仍需时间,但预示着Agent产品的下一级阶梯将更快降临[167]

Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗? - Reportify