Workflow
强化学习微调(RFT)
icon
搜索文档
2025,AI Agent赛道还有哪些机会?
虎嗅· 2025-05-26 16:16
AI Agent行业动态 - OpenAI以30亿美元收购编程工具Windsurf [1] - 编程工具Cursor母公司Anysphere获9亿美元融资 估值达90亿美元 [1] - 中国通用AI Agent项目Manus获Benchmark领投7500万美元融资 [1] - OpenAI推出具备浏览器能力的Operator和复杂任务处理产品Deep Research [1] 技术演进 - 2025年AI Agent技术实现跃迁 结合强化学习与推理模型能力 [8] - RFT(强化学习微调)技术推动Agent具备自主学习能力 [8] - 大语言模型达到"AlphaGo时刻" 能自主探索解题路径 [15] - 环境理解成为关键 Devin构建包含四个子界面的综合开发环境 [21] 产品分析 - Cursor从编程工具向通用平台转型 积极接入MCP接口 [31][55] - Windsurf内置context engine 环境理解能力突出 [19] - Devin创新性加入笔记系统 支持长期开发过程管理 [21] - Manus依赖Claude Sonnet 3.7模型 面临API稳定性挑战 [33] 创业机会 - 通用Agent领域被大厂占据 创业者机会集中在垂直场景 [23] - 服务型Agent面临被整合风险 如Operator覆盖上百个场景 [22] - 个人化Agent可能成为新方向 类似自媒体网红模式 [24] - 评估机制(Evaluation)成为构建竞争力Agent的关键 [40][43] 技术路线 - RFT相比SFT性能提升25% 但成本高出数倍 [47] - Manus采用SFT技术调优外围执行模块而非核心模型 [48] - MCP协议发展缓慢 行业采纳面临商业化障碍 [72] - 代码层成为数字世界操作的关键中间层 [28] 垂直领域案例 - Vantel为保险经纪人节省80%重复工作时间 [58] - Sweet Spot服务中小企业申请政府资助 用户体验优异 [59] - Gamma革新PPT制作流程 模块化设计获长期用户认可 [61][62] - Replit和Fellou在人机交互设计上表现突出 [49][52] 行业趋势 - 产品开发节奏加快 执行优先于计划 [65] - 环境侧建设滞后 MCP生态渗透需以年计 [68] - 编程Agent可能发展为通用型平台 [31][56] - 用户需求理解仍是待解难题 [69]
OpenAI揭秘Deep Research实现始末
锦秋集· 2025-04-30 15:09
Deep Research的起源与目标 - OpenAI团队放弃交易型赛道如订汉堡、订花 转而攻克知识整合 认为这是AGI必备前置技能 且"纯读取"比"直接下单"更安全 [3] - 产品愿景是打造"Slack同事式"统一智能体 能自主判断工具调用 保持状态与记忆贯穿始终 [3] - 选择研究型任务而非交易型任务因三方面考量:知识工作需求大 符合AGI科学发现目标 只读任务安全性更可控 [5][6] 开发方法论与数据策略 - 数据质量优先于数量 采用"小而准"策略 邀请专家手工标注高价值样例 强化学习让模型自寻最优策略 [3] - 每新增工具必配套数据集 训练模型调用组合回溯能力 人类专业知识在数据创建中起关键作用 [8][11] - 开发过程经历多次迭代 初期演示版仅用提示工程 后续才引入模型训练与工具开发 团队获数月不受干扰的专注期 [7] 强化学习微调实践 - 强化学习微调(RFT)适用场景:提示工程无效时 或10-15%性能差距对业务至关重要时 [3][9] - 数学编码等专项训练能泛化到写作等领域 但针对性训练效果更优 基因测序等超分布任务需优先考虑RFT [9] - RL算法数据效率高 但高质量数据策划工程量大 需与强大预训练基座模型协同 [12] 智能体架构设计 - 当前工具集包括文本浏览器和Python分析工具 未来将扩展工具集 需同步创建训练数据集 [8] - 记忆功能对复杂任务至关重要 避免用户重复输入 未来需解决长任务上下文窗口耗尽问题 [15][17] - 初期需显式确认建立信任 后期可逐步开放自主操作 安全护栏设置与能力提升需同步 [16] 性能表现与用户场景 - 医学研究和代码搜索等专业领域表现获专家认可 数据分析能力继承自基础模型o3的强大多任务训练 [25][26] - 擅长处理多约束条件查询 如特定商品搜索 能生成超长全面报告 实时信息补充价值显著 [27] - 训练中展现智能规划行为 如自主选择搜索词 但也存在不可预测错误 改进空间大 [28][31] 行业趋势与未来展望 - AGI路径因强化学习复兴更清晰 但需解决工具调用评估 数据精度等挑战 [12] - 未来一年可能推出通用智能体 编码与旅行规划等多任务统一处理 改进速度将超预期 [22] - 终极目标是执行API操作 访问私有数据 形成基础模型与微调能力的正向循环 [23][24]