Workflow
OpenAI揭秘Deep Research实现始末
锦秋集·2025-04-30 15:09

Deep Research的起源与目标 - OpenAI团队放弃交易型赛道如订汉堡、订花 转而攻克知识整合 认为这是AGI必备前置技能 且"纯读取"比"直接下单"更安全 [3] - 产品愿景是打造"Slack同事式"统一智能体 能自主判断工具调用 保持状态与记忆贯穿始终 [3] - 选择研究型任务而非交易型任务因三方面考量:知识工作需求大 符合AGI科学发现目标 只读任务安全性更可控 [5][6] 开发方法论与数据策略 - 数据质量优先于数量 采用"小而准"策略 邀请专家手工标注高价值样例 强化学习让模型自寻最优策略 [3] - 每新增工具必配套数据集 训练模型调用组合回溯能力 人类专业知识在数据创建中起关键作用 [8][11] - 开发过程经历多次迭代 初期演示版仅用提示工程 后续才引入模型训练与工具开发 团队获数月不受干扰的专注期 [7] 强化学习微调实践 - 强化学习微调(RFT)适用场景:提示工程无效时 或10-15%性能差距对业务至关重要时 [3][9] - 数学编码等专项训练能泛化到写作等领域 但针对性训练效果更优 基因测序等超分布任务需优先考虑RFT [9] - RL算法数据效率高 但高质量数据策划工程量大 需与强大预训练基座模型协同 [12] 智能体架构设计 - 当前工具集包括文本浏览器和Python分析工具 未来将扩展工具集 需同步创建训练数据集 [8] - 记忆功能对复杂任务至关重要 避免用户重复输入 未来需解决长任务上下文窗口耗尽问题 [15][17] - 初期需显式确认建立信任 后期可逐步开放自主操作 安全护栏设置与能力提升需同步 [16] 性能表现与用户场景 - 医学研究和代码搜索等专业领域表现获专家认可 数据分析能力继承自基础模型o3的强大多任务训练 [25][26] - 擅长处理多约束条件查询 如特定商品搜索 能生成超长全面报告 实时信息补充价值显著 [27] - 训练中展现智能规划行为 如自主选择搜索词 但也存在不可预测错误 改进空间大 [28][31] 行业趋势与未来展望 - AGI路径因强化学习复兴更清晰 但需解决工具调用评估 数据精度等挑战 [12] - 未来一年可能推出通用智能体 编码与旅行规划等多任务统一处理 改进速度将超预期 [22] - 终极目标是执行API操作 访问私有数据 形成基础模型与微调能力的正向循环 [23][24]