Deep Research
搜索文档
Agnes:不做通用型智能体丨对话全民AI应用平台Agnes AI
量子位· 2025-10-30 16:39
多智能体技术趋势与产品应用 - 多智能体成为AI领域最热门的话题之一,被视为提升AI系统效果的新解法,与基础大模型能力升级并行 [2][3] - 多家公司推出多智能体AI产品,例如Manus的「Wide Research」支持上百个Agent同时工作,纳米AI的「多智能体蜂群」支持灵活拉群与组队协作,快手的「Kwali」可将视频生成需求拆解分配给不同Agent [4] - Agnes AI作为以多智能体架构为核心的AI应用,上线四个月日活用户突破20万,海外注册用户数超过300万 [4][7] Agnes AI核心功能与场景 - 深度研究通过多轮迭代、自我评估与优化,结合多模态数据生成详细内容,适合复杂问题的系统性研究;广度研究基于自研CodeAgents框架,可调度上百个智能体并行工作,擅长处理多维度大规模任务 [8][14] - AI设计提供图像、视频生成能力,支持深度设计模式,通过多轮迭代优化提升作品质量;AI幻灯片可在2分钟左右生成专业PPT,支持多人实时协作;AI表格支持数据处理、公式运算与深度分析 [8][17] - 功能选择基于用户意图和任务复杂度自动路由,深度研究追求精准与深度,广度研究追求速度与广度,单纯Research功能时长控制在一分钟内 [14][16][18] 多智能体与单智能体性能对比 - 多智能体框架通过分工协作提升效率,单智能体串行执行任务可能导致速度下降,而多智能体支持并行探索,尤其在非关键任务中能收拢更多信息 [25][27] - 多智能体将任务分配给专家模型,在特定工作中表现优于通才型单智能体,单智能体需高算力支撑才能达到类似效果,多智能体与模型能力提升相辅相成 [25][31][32] - 以海报生成为例,多智能体通过Prompt Agent、Image Generating Agent和Evaluating Agent分工协作,整合不同模型优势,解决单模型在意图理解和生成细节上的局限 [28][30][33] 多智能体产品评估与工程优化 - 评估维度包括任务完整度、效率等,公司重点关注效率指标,通过提升速度降低Token消耗和迭代次数,从而控制成本 [34][35] - 采用代码化通信框架,将多智能体间沟通从自然语言转为代码形式,在论文实验中实现Token消耗下降40%到70%,速度与准确性提升 [36] - 框架设计采用大框架加自由角色,智能体不与特定角色强绑定,支持任务间自由编排与记忆,保障功能稳定与上线速度 [38] 产品定位与市场策略 - 目标用户包括白领、大学生及行研从业者,聚焦移动端年轻用户和WebWork轻量化办公场景,差异化优势在于场景聚焦与体验丝滑 [39][41] - 通过提供高免费额度吸引用户,免费Quota每月支持10到20次PPT生成,核心逻辑为抢占免费用户心智,利用低成本获客占据未开发市场 [40][53][56] - 产品定位为有Agent能力的主流全民应用,旨在覆盖ChatGPT和Perplexity能力并附加优势,目标成为全球前五的AI消费级应用 [63][64] 市场规模与行业展望 - AI办公市场潜力巨大,传统Office产品季度毛利达几百亿美元,而百万日活的AI Native产品估值可能达100亿美元,全球仅少数产品达到主流应用规模 [42][43][45] - AI Native产品被视为革命派路线,认为将颠覆传统使用习惯,传统办公产品则属于改良派,在现有产品中叠加AI能力 [44][46] - 市场机会包括拓展AI至社交、智能硬件等更广泛场景,成功需产品与市场双驱动,快速进入主流应用而非细分尝试 [47][49]
国诚投顾:OpenAI转型平台化,生态协作成AI产业发展新引擎
搜狐财经· 2025-10-23 16:51
OpenAI发展态势 - OpenAI代表闭源生态的技术中心主义 通过技术爆品实现用户脉冲式增长 MAU突破10亿[1] - ChatGPT自2022年11月问世 通过提升模型能力和创新玩法打造爆品 如2024年GPT-4o 2025年Deep Research等产品加速用户增长[1] - 从发布至2025年9月 用户发送消息数量增长超7倍 2024年7月到2025年7月增长超5倍 token增长体现高粘性 强付费意愿和长使用时间[1] - OpenAI定位从产品型公司转型为AI时代的Windows平台型公司 用户积累形成强大护城河 营收有望高速增长[1] - 公司绑定半导体产业链关键环节 构建操作系统级垄断 商业模型升维 除过往收入还将加大外部合作实现toB平台价值变现[1] - 预计2030年收入达2000亿美元 2024至2030年复合年增长率为92%[1] 中国AI应用竞争格局 - 在用户争夺中 字节豆包和腾讯元宝各有发展 2024年5月豆包大模型家族推出 以低价打响知名度后投流打造明星产品[1] - 2025年9月 豆包APP端MAU达1.50亿 网页端MAU达0.86亿 环比增长 处国产原生AI应用第一梯队[1] - 2024年腾讯元宝推广克制 MAU落后 2025年借力DS爆火推动其发展 MAU实现跨越式增长[1] - 国内AI入口或回归软件生态 腾讯与字节生态各有优势 中国超级APP强渗透率卡位AI入口[2] - 腾讯系和字节系占中国互联网用户使用时长近六成 腾讯微信握社交入口 字节抖音占内容入口 助元宝 豆包平台化转型[2] - 平台化转型有助于通过toB/toG提高商业天花板[2] 行业发展趋势与竞争核心 - 大模型核心价值从颠覆者转向赋能者 共生协作是平台化演进最优路径[2] - OpenAI等头部厂商开放生态实现技术外溢 AI应用公司承接落地 双方互补赋能推动AI市场扩容[2] - 大模型价值从单点技术突破升级为产业生态重构 未来竞争核心转向强生态 AI产业迈入生态驱动新阶段[2] - OpenAI与外部厂商合作的股价表现 印证投资者对协同共赢模式的信心 凸显生态协作路径商业价值认可度[2] - ToC做品牌 ToB做商业的双轮驱动或为行业共识 核心前提是ToC打响品牌声誉 获取和留存用户[3] - 平台化转型可推动大模型厂商从订阅+API向平台分成拓展增长曲线 下一轮竞争核心将聚焦用户积累与平台化转型能力[3]
o1 核心作者 Jason Wei:理解 2025 年 AI 进展的三种关键思路
Founder Park· 2025-10-21 21:49
智能商品化 - AI发展分为两个阶段:推动前沿阶段(研究人员努力解锁新能力)和商品化阶段(能力被规模化与降本)[11] - 在MMLU基准测试中,达到特定性能水平所需的成本呈现每年下降趋势[11] - 自适应计算时代允许根据任务难度调整计算量,从而持续降低智能成本,无需持续扩大模型规模[13] - 自适应计算的技术突破源于o1模型,证明在测试阶段投入更多计算资源可提升模型在基准测试上的表现[13] - 信息检索效率经历了四个时代的演变:前互联网时代(耗时数小时)、互联网时代(耗时数分钟)、聊天机器人时代(效率提升)和智能Agent时代(耗时几分钟甚至几小时),获取公共信息的时间急剧缩短[16][17] - 例如,回答“1983年釜山有多少对夫妇结婚”这一问题,在智能Agent时代仅需几分钟,而在前互联网时代可能需要飞到韩国并翻阅大量书籍[16] - OpenAI的BrowseComp基准测试显示,人类平均需要两个多小时解决的复杂问题,Deep Research模型可解决约一半[17] - 智能商品化将带来领域民主化,例如编程和个人健康等领域因知识门槛降低而更加开放[20] - 公共信息成本降低使得私有信息(如非市场挂牌的房屋信息)的相对价值提升[20] - 最终信息获取将变得无摩擦,形成高度个性化的信息流,而非公共互联网[20] - 任何公开可用的信息都能立刻获取,形成即时知识[22] 验证者定律 - 验证者定律的核心是:训练AI解决特定任务的能力,与验证该任务完成情况的难易程度成正比[14][26] - 任何可解决且易于验证的任务,最终都会被AI攻克[3][26] - 验证的不对称性指对于某些任务,验证解决方案比找到解决方案更容易[21] - 例如,解数独困难但验证容易,编写Twitter代码困难但验证容易,而设计饮食方案则生成容易验证困难[23][28] - 可通过提供特权信息(如答案或测试用例)来改变任务的验证不对称性,增加验证的容易度[26] - 任务的可验证性体现在五个方面:客观性(有明确对错标准)、验证速度(检查快慢)、可批量验证(一次性检查大量方案)、低噪音(验证结果稳定)和连续反馈(能给出具体质量分数)[29] - DeepMind的AlphaDev项目是利用验证不对称性的绝佳例子,通过进化式搜索算法(生成候选方案、自动评估打分、迭代优化)解决高度可验证的任务[31][32][33][34] - AlphaDev的成功在于其专注于解决单一具体问题,避开了深度学习中的泛化难题[35] - 验证者定律的启示是,首先被自动化的将是那些非常容易验证的任务[38] - 未来重要的领域包括发明衡量事物的方法,为难以衡量的领域(如创造力)设计快速、客观、可扩展的评估体系,从而利用AI进行大规模优化[38] 智能的锯齿状边缘 - 智能的边缘是锯齿状的,意味着AI在不同任务上的能力水平和进步速度因任务特性而异,发展不均衡[14][37][42] - “快速起飞”的假说(即AI在某一领域超越人类后智能会爆炸式增长)可能过于简单化,更现实的场景是自我改进能力存在一个“光谱”,而非二元突破[39][41][42] - 自我改进的速度应按每个具体任务来考量,各项任务会有不同的改进速度[42][44] - 例如,AI在复杂数学题、编程竞赛等“高峰”任务表现出色,但在判断9.11与9.9大小或处理特林吉特语等“低谷”任务上表现不佳[42] - 预测AI改进速度的几个窍门包括:AI擅长数字任务(因迭代速度快,扩展计算资源容易)[47]、对人类越容易的任务AI往往也觉得越容易[47]、AI可能完成人类因生理限制无法完成的任务(如分析1000万张乳腺癌图像)[47]、数据越充足AI表现越好(如语言模型在不同语言中的数学表现与数据量正相关)[47]、存在明确客观评估指标的任务可通过强化学习生成假数据实现自我训练[47] - 基于上述标准,可预测不同任务的自动化时间点:翻译(前50种语言)和调试基础代码已完成,竞赛数学在2024年完成,AI研究可能到2027年,化学研究更晚,拍电影可能在2029年,预测股市不确定,翻译特林吉特语可能性低,修水管和理发等非数字任务AI短期内难搞定,带女朋友约会让她开心AI永远搞不定[48][50] - 启示是AI影响最大的是那些符合数字任务、对人类不难且数据丰富的领域(如软件开发将极大加速),而另一些领域(如理发)可能保持不变[50]
Google ramps up its ‘AI in the workplace’ ambitions with Gemini Enterprise
Yahoo Finance· 2025-10-09 20:00
产品发布与定位 - Alphabet旗下谷歌公司推出名为Gemini Enterprise的综合人工智能平台 旨在快速增长的职场人工智能工具市场与Anthropic和OpenAI竞争 [1] - 该平台并非Workspace附加产品 而是谷歌云下一个独立且安全的平台 作为人工智能代理工具包 被描述为“职场人工智能的新入口” [4] - 平台旨在让企业安全地创建、共享和使用人工智能代理 处理销售、市场营销、工程、人力资源和财务等多种职场任务 [4] 产品功能与技术特点 - 平台通过Gemini Enterprise聊天机器人进行所有工作 可连接员工数据 包括谷歌Workspace和微软365 以及Salesforce和SAP等商业应用程序 [5] - 首次实现人工智能代理在单一企业工作流中访问、整合和分析来自内部系统及谷歌人工智能工具的信息 如Code Assist和Deep Research [4] - 平台包含谷歌Gemini人工智能模型、预构建代理集合、用于深度研究和数据洞察的无代码产品 以及集中治理框架 [5] 客户与市场应用 - 发布同时宣布多家新客户 包括软件设计公司Figma、先买后付公司Klarna、食品服务分销商Gordon Foods、澳大利亚零售银行Macquarie Bank以及维珍邮轮 [2] - 维珍邮轮已在Gemini Enterprise上部署超过50个专业人工智能代理 这些代理可自主执行任务 [2] 产品发展历程 - 产品基于公司先前将人工智能能力引入企业的迭代努力 但不应被误认为仅仅是品牌重塑 [3] - 谷歌Workspace于2024年2月采用Gemini品牌 并宣布名为Gemini Enterprise的附加生成式人工智能产品可供企业使用 [3] - 公司在开始将人工智能功能纳入其Workspace商业和企业计划后 于今年早些时候停用了该Workspace Gemini Enterprise附加产品 [3]
下一个10年,普通人改命的4大机会
36氪· 2025-09-23 07:41
AI时代核心机遇 - AI本质是让人类经验可复制,催生复杂服务规模化新商业模式[2] - 技术革命真正价值在于创造新增市场而非简单替代原有业务[3] - 人工智能时代赢家是最懂需求并能利用技术规模化满足需求的人[1] AI发展演进规律 - AI发展经历两个阶段:节能增效阶段和扩大市场阶段[3] - 历史技术革命规律显示,伟大技术最终会开创全新市场[3] - 瓦特蒸汽机通过火车轮船应用实现需求爆发,市场规模从200台扩展到全球[3][4] - 福特T型车创造大众汽车新市场,20年间售出1650万辆[5][6][7] 服务规模化特征 - AI服务具备四大特征:专家级、个性化、持续化和普惠性[11] - 持续化服务能深入掌握用户历史数据,实现跨代际服务[13] - 专家级服务价格大幅降低,围棋教练等职业可被AI替代[14] - 普惠服务通过海量用户基础实现商业价值,单服务用户可达数十亿[15] 产业变革方向 - 社会从购买产品转向享受服务,用户真正需要的是产品背后的服务[19][20] - 健康管理领域将从销售医疗器械转变为提供个性化健康方案[20] - 交通出行服务革命分为电动化、智能化和出行服务化三个阶段[33] - 未来赢家将是出行服务商,特斯拉最具潜力成为主导企业[33][34] 技术实现路径 - 复杂推理能力突破使AI能系统性解决问题而不仅是一次性互动[22] - 长记忆功能通过百万级token输入输出来实现持续服务能力[24] - 第三方功能调用能力(MCP协议)让AI能完成订餐支付等实际任务[25][26] - AI发展方向是领域专家而非通用AGI,商业模式更清晰[27] 商业机会识别 - 洞察需求比掌握技术更重要,模式创新者才是最大赢家[42][43] - 沃尔玛案例显示,利用汽车普及重构零售模式创造巨大商业价值[42] - UPS创始人通过观察福特车普及发现物流机会,建立跨国物流巨头[43][44] - 锁定特定领域深耕,结合AI工具理解能力边界是关键成功要素[45][46] 核心能力构建 - 人类拥有预测能力这一独特优势,可提前布局未来趋势[50] - 交通出行服务将催生第三方增值服务市场,包括娱乐购物等[52][53] - 连续积累行业认知,从量变到质变理解领域痛点与规则[49] - 坚定执行预测布局,面对市场怀疑时保持信心至关重要[55][56]
一夜刷屏,27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
36氪· 2025-09-12 12:04
行业人才动态 - 顶尖AI人才姚顺雨从OpenAI离职的传闻引发行业高度关注,尽管腾讯已正式辟谣其入职消息[1] - 年仅27岁的姚顺雨拥有清华姚班本科和普林斯顿博士背景,是OpenAI智能体核心项目的深度参与者[5][7] - 其离职预示着全球AI人才生态正在发生更深层的迁徙与重组[6] 人才价值评估 - 行业传闻其可能获得高达1亿人民币的天价薪酬包,参照Meta为OpenAI核心研究员开出1亿美元报价的案例[3] - 作为OpenAI Deep Research的核心贡献者,姚顺雨的学术影响力显著,个人总引用次数达15,253次,h指数为24[11][12] - 其主导研究的ReAct论文引用4,354次,思维树论文引用4,022次,在语言智能体领域具有重要地位[12] 技术研究方向 - 姚顺雨专注研究语言智能体与数字自动化,参与开发了Operator、Deep Research及Computer-using Agent等OpenAI首批智能体产品[5][11] - 提出"评测将比训练更重要"的观点,认为AI下半场需从解题转向命题,重视定义问题与设定指标[18][19] - 强调AI发展需更靠近产品经理角色,通过测评定义真实世界中的可度量价值[20][21] 公司战略布局 - OpenAI通过智能体产品实现从"会聊天"到"会办事"的关键跃迁,代表其迈向AGI Level 3的重要一步[4] - 智能体人才的流向可能决定AI下半场的竞争格局,各大公司正积极争夺核心研究人员[1][3]
深度|OpenAI Agent团队:未来属于单一的、无所不知的超级Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移
Z Potentials· 2025-08-29 11:52
核心观点 - OpenAI通过合并Deep Research和Operator项目开发出新型AI Agent 能够执行长达一小时复杂任务 具备多工具协同和状态共享能力 开启人机协作新范式 [2][5][6][7][19][24][42] 技术架构与能力 - Agent配备虚拟计算机环境 集成文本浏览器 GUI浏览器 终端和API调用工具 所有工具共享状态 实现跨工具无缝切换 [5][6][24] - 支持运行代码 分析文件 创建电子表格和幻灯片 访问GitHub Google Drive等私有服务 [5][6][11] - 单次任务推理时间达28分钟至1小时 突破传统上下文长度限制 [19][20][21] - 采用强化学习训练 在数千个虚拟机上进行实验 模型自主学会工具使用策略 [7][24][26][45] 产品演进路径 - 2024年1月先后发布Operator(执行网页交互任务)和Deep Research(信息综合研究) 两周后意识到功能互补性 [9] - 文本浏览器擅长高效阅读但缺乏交互 GUI浏览器擅长点击操作但文本处理弱 合并后实现能力互补 [9][10] - 新增终端 图片生成 API调用等工具 形成完整工具生态 [11][12][13] 应用场景与用例 - 设计保持开放性 预期出现未预见用例 类似Deep Research曾被用于代码搜索的意外场景 [14][40] - 实际用例包括:从实验日志提取数据制作幻灯片 研究古代DNA生成报告 网上购物比价 创建财务模型估算公司估值 [16][18] - 同时适用于消费级和企业级场景 目标用户为"专业消费者"(prosumer)[15] 人机交互特性 - 支持双向实时交互 用户可中途打断 纠正指令或授权登录 Agent也可主动请求澄清 [7][22] - 提供计算机界面实时观察Agent操作 任务完成后可追溯修改 用户可接管环境手动操作 [23] - 交互模式向"幕僚长"形态演进 未来可能实现主动服务 [42][43] 训练方法与扩展性 - 强化学习数据效率极高 高质量小规模数据集即可训练 数据量较预训练可忽略不计 [44] - 计算资源与训练数据量增长约十万倍 使"World of Bits"愿景成为可能 [45] - 所有技能存在正向迁移 单一基础模型比专用子Agent更具优势 [44] 性能表现 - 在DataScienceBench评估中超越人类基准 具备超人级研究能力 [46] - 点击准确度大幅提升 表单填写可靠性显著改善 日期选择仍存挑战 [46][47][48] 开发团队构成 - 由原Deep Research团队(3-4人)和Operator团队(6-8人)合并而成 [30][33][34] - 研究团队与应用团队深度协作 从用例反向定义产品需求 [34][35] - 跨部门合作涉及安全 治理 法律 研究 工程等多团队 [28] 安全风险管控 - 因具备写入能力 存在外部副作用风险 安全训练为核心开发环节 [26][27] - 采用监控系统实时检测异常行为 类似杀毒软件机制 [27] - 重点防范生物安全风险 进行数周红队测试确保不被用于有害目的 [29]
喝点VC|a16z对话OpenAI研究员:GPT-5的官方解析,高质量使用场景将取代基准测试成为AGI真正衡量标准
Z Potentials· 2025-08-21 11:09
GPT-5技术能力提升 - 模型在推理、编程和创意写作方面实现质的飞跃,前端开发能力相比GPT-3达到完全不同的层次[6][9][12] - 通过优化数据集设计和奖励模型,显著提升编程能力,被描述为"市面上最强的编程模型"[11][12] - 创意写作能力显著增强,能够生成细腻动人的文本,例如悼词等难以撰写的内容[29] - 通过中期训练(mid-training)更新知识截止时间并扩展模型智能,弥补预训练和后期训练之间的空白[45] 行为设计与幻觉控制 - 针对GPT-4存在的"逢迎"问题,团队重新设计行为目标,追求健康、有帮助的互动感[13] - 幻觉和欺骗问题得到显著收敛,通过引导模型逐步思考而非快速回答来减少错误[14] - 优化多奖励目标的权衡,确保模型既有帮助性又避免过度互动[13] 智能体与工作流变革 - 智能体定义为能异步完成真实任务的助手,核心能力包括深度研究、文档编辑和跨服务数据整合[36] - 未来方向包括长时间运行任务(如耗时数小时或数天的项目)和端到端流程自动化[35] - 当前限制在于缺乏高质量计算机使用数据,需通过自举(bootstrap)方式生成训练数据[43][44] - 用户对异步任务接受度提高,愿意为高质量结果等待(如深度研究任务等待5分钟)[37][38] 评估标准与开发方法论 - 基准测试价值趋近饱和(如指令跟随分数从98提升至99),未来标准转向真实使用场景和新用例解锁[21][22] - 开发方法从目标能力反推,针对具体场景(如幻灯片制作、电子表格编辑)设计内部评测[6][22] - 通用能力优先于垂直领域,因智能提升会同时改善多项功能(如指令理解、工具使用)[24][25] 行业影响与机会 - 非技术背景用户可通过"vibe coding"快速构建完整应用,几分钟完成过去需一周的工作[6][17] - 定价策略降低使用门槛,预计催生大量独立开发者和创业公司[15][17] - 多模态能力(如计算机视觉理解网页截图)和工具集成(浏览器+终端)为自动化奠定基础[28][42] 公司文化与使命 - 研究团队保持小规模灵活结构(如深度研究团队仅2人),强调主动性和跨部门协作[54] - 使命是推动AGI落地并通过免费提供最强模型实现技术普及[58] - 数据质量被视为当前能力跃升的关键因素,优于架构或规模改进[26][27]
很多创业者都没意识到,Deep Research 也是做 Go-to-Market 的利器
Founder Park· 2025-08-18 16:27
Deep Research功能概述 - Deep Research能显著提升AI产品GTM效率,将数小时工作压缩至几分钟[2] - 主流AI产品如ChatGPT、Gemini、Perplexity均已上线该功能[2] - 需通过高质量提示词和背景信息指导才能产出定制化研究成果[2] 使用技巧 技巧1:信息源质量控制 - AI可能误用社交媒体观点或过时数据,需人工指定优先来源类型(如政府数据)[7][12] - 可要求AI在报告中添加来源概述表,列明数据年份、用途及替代来源差异[8][9] 技巧2:背景信息输入 - 需主动提供公司运营模式、目标及限制条件等背景信息[13] - 可创建项目档案存储共享背景,避免重复输入[14] - 建议使用GPT-5/Claude Opus生成背景信息需求清单[18] 技巧3:研究计划审核 - Gemini会主动提供研究计划,其他工具需在提示词中明确要求[20][22] - 审核重点包括:内容覆盖度、方法合理性及AI假设验证[23] 技巧4:报告格式优化 - 默认生成报告可读性差,需指定摘要前置、关键见解优先等结构化格式[24] - 推荐使用金字塔原则:结论先行,论据支撑[31] 工具选择策略 - ChatGPT为最佳通用工具,尤其GPT-5版本具备深度分析和Agent Mode交互优势[38][39] - Gemini适合备用,Perplexity擅长特定网站/论坛研究,Claude/Grok输出简洁[40][42] - 工具对比维度包括定价限制、研究规划、上下文处理等7项指标[43] GTM实战用例 用例1:内部项目指南 - 可快速生成营销归因模型等复杂项目实施手册,含方法对比及分步SQL代码[46][47] - 需明确公司技术栈(如Salesforce+Snowflake)以获取定制方案[47] 用例2:竞品广告分析 - 通过Agent Mode抓取LinkedIn广告库50+案例,分析定位策略及CTA设计[51][54] - 输出含具体广告链接及截图,覆盖广告类型、受众画像等维度[56] 用例3:网页审计 - 结合竞品分析与行业最佳实践,提出改进优先级排序及文案示例[63] - Agent Mode可交互验证页面元素,避免静态分析误差[64] 用例4:产品功能对比 - 基于官方文档生成竞品功能差距分析,需验证信息时效性[67][68] - 可延伸生成竞争力文案,如客户比较页面设计建议[69] 用例5:国际市场评估 - 采用两阶段法:先由GPT-5建立评估框架,再通过Deep Research生成国家排名[72][75] - 关键数据源包括政府统计(如Eurostat)和企业规模数据(如UK Business Population)[9][76] 扩展应用场景 - 使用Perplexity监测社交媒体反馈,或通过Agent Mode记录竞品用户流程[80] - 生成行业增长技巧报告并与推理模型协作筛选适用方案[80]
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials· 2025-08-14 11:33
核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]