OpenAI揭秘Deep Research实现始末

Deep Research的起源与目标 - OpenAI团队放弃交易型赛道如订汉堡、订花转而攻克知识整合认为这是AGI必备前置技能且"纯读取"比"直接下单"更安全 [3] - 产品愿景是打造"Slack同事式"统一智能体能自主判断工具调用保持状态与记忆贯穿始终 [3] - 选择研究型任务而非交易型任务因三方面考量：知识工作需求大符合AGI科学发现目标只读任务安全性更可控 [5][6] 开发方法论与数据策略 - 数据质量优先于数量采用"小而准"策略邀请专家手工标注高价值样例强化学习让模型自寻最优策略 [3] - 每新增工具必配套数据集训练模型调用组合回溯能力人类专业知识在数据创建中起关键作用 [8][11] - 开发过程经历多次迭代初期演示版仅用提示工程后续才引入模型训练与工具开发团队获数月不受干扰的专注期 [7] 强化学习微调实践 - 强化学习微调(RFT)适用场景：提示工程无效时或10-15%性能差距对业务至关重要时 [3][9] - 数学编码等专项训练能泛化到写作等领域但针对性训练效果更优基因测序等超分布任务需优先考虑RFT [9] - RL算法数据效率高但高质量数据策划工程量大需与强大预训练基座模型协同 [12] 智能体架构设计 - 当前工具集包括文本浏览器和Python分析工具未来将扩展工具集需同步创建训练数据集 [8] - 记忆功能对复杂任务至关重要避免用户重复输入未来需解决长任务上下文窗口耗尽问题 [15][17] - 初期需显式确认建立信任后期可逐步开放自主操作安全护栏设置与能力提升需同步 [16] 性能表现与用户场景 - 医学研究和代码搜索等专业领域表现获专家认可数据分析能力继承自基础模型o3的强大多任务训练 [25][26] - 擅长处理多约束条件查询如特定商品搜索能生成超长全面报告实时信息补充价值显著 [27] - 训练中展现智能规划行为如自主选择搜索词但也存在不可预测错误改进空间大 [28][31] 行业趋势与未来展望 - AGI路径因强化学习复兴更清晰但需解决工具调用评估数据精度等挑战 [12] - 未来一年可能推出通用智能体编码与旅行规划等多任务统一处理改进速度将超预期 [22] - 终极目标是执行API操作访问私有数据形成基础模型与微调能力的正向循环 [23][24]