Workflow
RL调优
icon
搜索文档
Deep Research 团队:Agent 的终极形态是所有任务 All-in-one
海外独角兽· 2025-02-27 20:09
文章核心观点 - OpenAI推出第二个Agent Deep Research,可搜索多网站生成全面报告,团队分享构建技术细节、产品思路及使用场景,未来希望打造终极Agent整合多种功能,且Agent有望在2025年崭露头角 [1][11] 分组1:OpenAI的第二个Agent - Deep Research能搜索多在线网站生成全面报告,在ChatGPT中运行,回答时间5 - 30分钟,能深入研究并详细回答问题,是OpenAI第二个Agent,未来还会发布更多 [5] - 约一年前OpenAI采用reasoning范式训练模型,解锁长时任务处理能力,意识到完成任务需在线研究等能力,开发出对应模型训练方法,项目最初由Isa Fulford和Yash Patil合作原创demo,Josh Tobin 6个月前加入 [6] - Deep Research有澄清流程,在研究前向用户提问,确保用户提供模型所需细节,很多用户先与o1或o1 Pro互动完善prompt后再发给它 [9][10] - 过去几个月OpenAI推出三种不同的Deep Research,因模型构建方式等因素质量有差异,未来希望用户通过终极Agent自然融合多种功能 [11] 分组2:Agent能力来自模型端到端的训练 - Deep Research底层模型是O3微调版本,经复杂浏览和推理任务端到端训练,学会应对策略,能整合信息生成带引用报告 [13] - 端到端训练使Deep Research有创新的Agent能力,能对实时网页信息灵活反应,创造性搜索,与非端到端训练的AI搜索产品有差异 [14][15] - Josh Tobin曾尝试构建Agent,发现按常规方式构建在现实中会有问题,说明Deep Research强大源于端到端训练,还建议按需用人工编写逻辑,在模型整体基础上进行RL调优可能是构建强大Agent的关键 [16][18] - 高质量数据集是Deep Research模型成功的关键因素之一,Edward Sun会对所有数据集进行优化 [19] 分组3:Deep Research的优势 - 当用户需求详细时,Deep Research能通过阅读互联网内容提供最佳答案,问题模糊时也能理清信息,擅长收集冷门事实和综合信息,但提炼新见解和做出新科学发现效果不佳 [20] 分组4:Deep Research的使用场景 - 目标用户是从事知识性工作的人员,适合需大量收集信息、分析数据并决策的人,可应用于工作和个人生活场景 [21] - 商业和个人生活场景中,Deep Research能节省时间,赋予知识型工作者超能力,实现更多事情,访谈提及的场景包括医疗、投资、购物、旅行、编程和个性化教育等 [22][23] 分组5:Agent会在2025年崭露新头角 - OpenAI希望未来Deep Research在产品形态上嵌入图像和生成图表,扩展可访问数据源,提升浏览和分析能力,改进信息准确度,融入Agent路线图扩展应用场景 [30] - Deep Research能完成部分经济上可行的任务,为用户节省时间,OpenAI希望其和后续构建的Agent能根据用户工作类型节省1% - 25%的时间 [31] - Isa Fulford和Josh Tobin认为今年Agent会崭露头角,现在有强大预训练语言模型和监督微调方法,适合根据用户奖励函数调整模型用于各种用例 [32][34]