Workflow
Deep Research
icon
搜索文档
喝点VC|a16z对话OpenAI研究员:GPT-5的官方解析,高质量使用场景将取代基准测试成为AGI真正衡量标准
Z Potentials· 2025-08-21 11:09
图片来源: a16z Z Highlights : Christina Kim 是 OpenAI 研究员,负责核心模型团队的后训练工作。 Isa Fulford 亦是 OpenAI 研究员,负责深度研究以及 ChatGPT 智能体团队的后训练工 作。 Sarah Wang 是 a16z 的合伙人,自 2021 年起一直参与并推动对 OpenAI 的投资。 ChatGPT-5 刚刚发布,推理、编程、创意写作能力得到大幅提升,可 信度、行为表现以及后训练技术也显著改进。 本期访谈发布于 2025 年 8 月 8 日, a16z 邀请了上述三位嘉宾,一同探讨 ChatGPT-5 的训练方式,智能体工 作流的转变,以及 GPT-5 对开发者、初创公司,以及更广泛 AI 生态未来的意义。 提升全面且更可信, GPT-5 在逢迎与幻觉问题上显著收敛 Erik Torenberg : 今天算是新闻比较少的一天啊,感谢你们来参加。对不太熟悉的观众,可以介绍一下你们在 OpenAI 做什么吗? Christina Kim : 我是 Christina ,负责核心模型团队的后训练工作。 Isa Fulford : 我是 Isa ...
很多创业者都没意识到,Deep Research 也是做 Go-to-Market 的利器
Founder Park· 2025-08-18 16:27
Deep Research功能概述 - Deep Research能显著提升AI产品GTM效率,将数小时工作压缩至几分钟[2] - 主流AI产品如ChatGPT、Gemini、Perplexity均已上线该功能[2] - 需通过高质量提示词和背景信息指导才能产出定制化研究成果[2] 使用技巧 技巧1:信息源质量控制 - AI可能误用社交媒体观点或过时数据,需人工指定优先来源类型(如政府数据)[7][12] - 可要求AI在报告中添加来源概述表,列明数据年份、用途及替代来源差异[8][9] 技巧2:背景信息输入 - 需主动提供公司运营模式、目标及限制条件等背景信息[13] - 可创建项目档案存储共享背景,避免重复输入[14] - 建议使用GPT-5/Claude Opus生成背景信息需求清单[18] 技巧3:研究计划审核 - Gemini会主动提供研究计划,其他工具需在提示词中明确要求[20][22] - 审核重点包括:内容覆盖度、方法合理性及AI假设验证[23] 技巧4:报告格式优化 - 默认生成报告可读性差,需指定摘要前置、关键见解优先等结构化格式[24] - 推荐使用金字塔原则:结论先行,论据支撑[31] 工具选择策略 - ChatGPT为最佳通用工具,尤其GPT-5版本具备深度分析和Agent Mode交互优势[38][39] - Gemini适合备用,Perplexity擅长特定网站/论坛研究,Claude/Grok输出简洁[40][42] - 工具对比维度包括定价限制、研究规划、上下文处理等7项指标[43] GTM实战用例 用例1:内部项目指南 - 可快速生成营销归因模型等复杂项目实施手册,含方法对比及分步SQL代码[46][47] - 需明确公司技术栈(如Salesforce+Snowflake)以获取定制方案[47] 用例2:竞品广告分析 - 通过Agent Mode抓取LinkedIn广告库50+案例,分析定位策略及CTA设计[51][54] - 输出含具体广告链接及截图,覆盖广告类型、受众画像等维度[56] 用例3:网页审计 - 结合竞品分析与行业最佳实践,提出改进优先级排序及文案示例[63] - Agent Mode可交互验证页面元素,避免静态分析误差[64] 用例4:产品功能对比 - 基于官方文档生成竞品功能差距分析,需验证信息时效性[67][68] - 可延伸生成竞争力文案,如客户比较页面设计建议[69] 用例5:国际市场评估 - 采用两阶段法:先由GPT-5建立评估框架,再通过Deep Research生成国家排名[72][75] - 关键数据源包括政府统计(如Eurostat)和企业规模数据(如UK Business Population)[9][76] 扩展应用场景 - 使用Perplexity监测社交媒体反馈,或通过Agent Mode记录竞品用户流程[80] - 生成行业增长技巧报告并与推理模型协作筛选适用方案[80]
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials· 2025-08-14 11:33
核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]
量子位智库2025上半年AI核心成果及趋势报告
2025-08-05 11:19
**行业与公司关键要点总结** --- **1. 行业概述** - **AI行业核心逻辑**:技术范式推动模型能力增强,解锁更大应用空间,加速价值创造 [7] - **四大趋势方向**:应用趋势、模型趋势、技术趋势、行业趋势 [4] --- **2. 应用趋势** - **通用类Agent**: - 深度整合工具使用,完成复杂研究任务(如生成图文报告、视频素材)[9] - 交付内容深度提升(从简单文字到多文件编辑)[9] - **Computer Use Agent (CUA)**: - 基于视觉操作GUI,打破数据孤岛,但成本高、异步化难 [12] - **垂类Agent涌现**: - **旅行**:飞猪“问一问”支持多Agent协同(路线规划、票务查询)[13] - **设计/创作**:自然语言生成生产级海报/视频(如GPT-4o图像生成)[13][26] - **时尚**:自然语言生成穿搭方案 [13] - **AI编程**: - Cursor ARR突破5亿美元,演化阶段:代码补全→端到端交付 [15] - 验证成本高(人类反馈占90%工作量),需拆解为小问题解决 [48] - **模型上下文协议(MCP)**: - 标准化接口调用外部工具,但生态未成熟(仅支持20-30个调用)[16] --- **3. 模型趋势** - **推理能力提升**: - 思维链技术推动数学/代码能力进步(如AIME 25准确率+23%)[19] - 工具使用端到端训练(如o3模型,任务准确率+81%)[21] - **多模态融合**: - 视觉推理(如o3模型解决量子力学题目)[24] - 图像生成控制力增强(支持16个细节指令、多轮编辑)[26] - 视频生成整合原生配音(如Veo 3唇动同步)[27][28] - **小模型普及**: - 极致性价比(如Qwen3-0.6B、Gemma 3n仅需2GB RAM)[33] - **评估演化**: - 传统静态榜单饱和,转向实用性任务(如HealthBench医疗评估)[35] --- **4. 技术趋势** - **训练阶段重心**: - 预训练(基础能力)与后训练(激发能力)并重,强化学习算力需求超预训练 [39][41] - **强化学习**: - 算力消耗未来占比最高(如xAI集群扩展至100万卡规模)[56] - **多智能体系统(Multi-Agent)**: - 分布式处理提升效率(如Grok 4采用此架构)[43] - **在线学习**: - 从交互经验中学习,突破人类数据依赖(如Google Deepmind“经验时代”)[44] - **Transformer架构迭代**: - 优化注意力机制(如MiniMax-01支持400万token上下文)[45] - 混合架构涌现(如腾讯混元T1融合Mamba-Transformer)[46] --- **5. 行业趋势** - **头部玩家竞争**: - OpenAI领先优势缩小,谷歌Gemini 2.5 Pro、xAI Grok 4(科学/工程类SOTA)达第一梯队 [58] - 中美差距缩小:中国多模态(如Seedance视频生成)和代码能力(Qwen3-Coder)达SOTA [60][61] - **AI编程争夺战**: - 海外:OpenAI Codex、Anthropic Claude Code、谷歌Gemini Code [62] - 国内:通义灵码、字节Trae(对标Cursor)[63] - **创业公司分化**: - 技术驱动(如DeepSeek开源R1模型)vs. 商业化落地(如零一万物聚焦B端)[64] - **算力竞赛**: - xAI算力集群快速扩张(2025年达100万卡),强化学习算力需求+567% [56] --- **6. 其他关键数据** - **视频生成商业化**:字节可灵月收入1400万美元 [31] - **系统提示词**:Claude模型1.7万字提示词决定用户体验 [51] - **验证瓶颈**:AI编程中90%工作量来自代码验证 [48] --- **注**:所有数据与观点均引自原文标注的文档ID,未进行主观推断。
OpenAI迎来“Agent时刻”:智能体大战的路线选择
虎嗅· 2025-08-04 10:47
文章核心观点 - OpenAI发布通用型ChatGPT Agent,整合深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,但存在速度慢、个性化不足等短板 [1] - ChatGPT Agent采用"浏览器+沙盒虚拟机"架构,与Manus、Genspark形成技术路线差异 [1] - Agent将重塑互联网入口,改变流量分发模式,对创作者商业模式产生影响 [52][56][64] 主流底层架构对比 - 浏览器(Browser-based)代理:万能但运行速度慢,Token消耗高 [12][13][14] - 沙盒(Sandbox)环境:高效但无法联网操作,工具库受限 [16][17] - 大模型加限制沙盒:如Genspark,环境封闭,仅能运行预设程序包 [18][19] - 工作流集成(Workflow API):速度快、结果精准,但业务范围有限 [21] 主要Agent产品优劣势 - OpenAI ChatGPT Agent:深度研究能力强,浏览器执行层面表现优异,基准测试达50多分(其他最高20多分) [4][6] - Manus:虚拟机环境搭建优势,但受浏览器能力限制,执行速度慢(30多分钟/任务) [27][28][31] - Genspark:垂直化模板设计,速度较快但通用性下降 [33][34] - Pokee:执行速度最快(市面产品的4-10倍),采用第三方集成SDK,Token成本降低50%-60% [36][40] 用户体验差异 - 浏览器架构Agent(如Manus、ChatGPT):功能全面但速度慢 [27][28] - 沙盒架构Agent(如Genspark):执行速度快但功能受限 [34] - 工作流集成Agent(如Pokee):专业场景高效但需平台接口支持 [40][41] 商业模式与技术路线 - ToC产品(Manus、Genspark、ChatGPT Agent):面向普通消费者,解决通用需求 [46] - ToB产品(如Pokee):针对专业人士重复性工作场景 [46][48] - 平台接口开放程度直接影响Agent能力边界 [43][48] 行业趋势与影响 - Agent将改变互联网流量入口模式,门户网站流量可能下降 [52][56] - 广告模式可能从流量分成转向知识产权直接付费 [64] - 推荐系统算法可能从排名导向转向连续交互机制 [67][68][69] - 多智能体协作协议(MCP)发展面临可用性挑战 [58][59]
OpenAI杀入通用AI Agent的背后:四大技术流派与下一个万亿流量之战
36氪· 2025-08-03 17:57
OpenAI发布ChatGPT Agent进军通用AI Agent赛道 - 7月17日OpenAI正式发布ChatGPT Agent 融合Deep Research(搜索)和Operator(执行)两大工具 实现"搜索与执行"一体化能力 [1][4] - 技术路线基于浏览器控制 通过视觉模型模拟人类网页操作 通用性强但速度慢 任务耗时可达几十分钟 [7][9][12] - 发布当日ChatGPT日指令量达25亿条 年化9125亿次 相当于谷歌年搜索量的18% [48] 通用AI Agent四大技术流派对比 浏览器为主派(OpenAI) - 优势:全网访问 通用性极强 视觉模型和浏览器点击能力领先行业 [9][13] - 劣势:需加载完整HTML和脚本 Token消耗高 速度慢成为主要痛点 [10][12] 虚拟机+浏览器派(Manus) - 沙盒虚拟机提供隔离计算环境 可本地执行复杂操作 结合浏览器增强功能 [14][16] - 4月融资7500万美元 估值5亿美元 但受限于浏览器能力 页面导航等精细操作困难 [20][22] 大模型+虚拟机派(GensPark) - 限制性沙盒环境搭配预置工具 通过API直接调用服务 牺牲通用性换取速度 [24][26] - A轮融资1亿美元 估值5.3亿美元 集成80多个预构建工具 标准化工作流提升可靠性 [28][31] 工作流+工具集成派(Pokee/UiPath) - 预设节点调用第三方应用 速度达行业4-10倍 工具调用成本降低50%-60% [32][34] - 强化学习自动规划流程 但局限于特定场景 通用性不足 [33] 未来流量入口与商业模式变革 - Agent交互将产生"幽灵光标"现象 取代人类成为互联网访问主力 门户网站流量面临断崖式下跌 [39][41][42] - Google推出Agent2Agent协议争夺入口标准 内容付费模式可能取代广告分成 [42][46] - 创作者可通过API直接收费 广告嵌入Agent工作流环节 商业生态面临重构 [46]
OpenAI杀入通用AI Agent背后:四大技术流派与下一个万亿流量之战
虎嗅· 2025-08-03 16:22
通用AI Agent技术路线分析 - OpenAI推出ChatGPT Agent,融合Deep Research和Operator工具,实现"搜索与执行"一体化功能 [7][8] - 目前通用Agent领域形成四大技术派系:浏览器为主派、虚拟机+浏览器派、大模型+虚拟机派、工作流+工具集成派 [11][59] - 浏览器为主派(OpenAI)优势在于通用性强但速度慢,任务完成需几十分钟 [15][17][20] - 虚拟机+浏览器派(Manus)本地执行效率高但外部访问受限,4月融资7500万美元估值5亿美元 [34][35] - 大模型+虚拟机派(GensPark)牺牲通用性换取速度,A轮融资1亿美元估值5.3亿美元 [45][47] - 工作流+工具集成派(Pokee/UiPath)速度快但通用性差,速度可达其他产品4-10倍 [57][58] 行业竞争格局 - OpenAI入局引发市场格局洗牌,ChatGPT日指令量达25亿条,相当于谷歌年搜索量18% [75][76] - 各技术路线代表公司:OpenAI(ChatGPT Agent)、Manus、GensPark、Pokee/Zapier/UiPath [59] - 通用性与速度稳定性难以兼得,OpenAI和Manus选择通用性,GensPark和Pokee选择速度 [60] - 行业趋势从通用转向专精场景,通过工作流提升用户留存率 [61][62] 未来流量入口变革 - AI Agent将成为互联网访问主力军,产生"幽灵光标"现象 [66][67] - 传统门户网站流量将快速下降,流量入口转向各方向Agent [70] - Google推出Agent2Agent协议试图占据入口地位,ChatGPT和Claude也在布局 [70] - 广告模式将颠覆,内容创作者可通过Agent直接收费 [72]
Manus还活着,还上新了
虎嗅APP· 2025-08-01 18:26
Manus新功能Wide Research发布 - 公司推出新功能Wide Research(广度研究),目前仅对Pro用户开放,未来将向Basic和Plus用户开放,暂无免费用户开放计划 [3] - 该功能是公司内部耗时最长的开发项目,耗时超两个月 [6] - 功能定位为"广度研究",与OpenAI的"深度研究"形成差异化竞争,直接挑战行业巨头 [6] 技术特点与性能对比 - Wide Research采用并行计算技术,可将任务拆分为批量子任务处理,计算能力扩展100倍,但算力消耗显著增加 [9] - 实际测试显示,Wide Research能完成全球前100MBA学校列表等广度任务,而ChatGPT Agent仅能处理10所学校 [7] - 功能演示显示可同时比较100双运动鞋或生成50张风格海报,展现横向扩展优势 [9] 用户成本与行业竞争格局 - 单个Wide Research任务预计消耗1000积分(子任务约10积分/个),远超免费用户每日300积分限额 [10] - 行业存在技术路线分化:Wide Research强在并行效率,Deep Research长于复杂逻辑推理,两者结果可靠性均需提升 [10] - AI Agent领域陷入同质化竞争,公司通过Wide Research实现差异化创新,突破行业"深度研究"内卷现状 [12] 战略意义与行业影响 - 新功能发布被视为公司技术实力的重要证明,回应市场对其发展状况的质疑 [5] - 从产品推出到功能迭代仅用5个月,展现快速创新能力 [5][6] - 行业面临AGI技术瓶颈,公司尝试通过计算范式创新开辟新竞争维度 [12]
OpenAI会杀死Manus们吗?
创业邦· 2025-07-22 11:02
核心观点 - OpenAI发布ChatGPT Agent,通过专用模型实现任务规划、跨工具调用和文档生成等复杂流程,显著提升AI Agent能力 [5][9] - 初创公司如Manus和Genspark通过工程优化和上下文设计在响应速度、任务完成度和用户体验上暂时领先,但面临底层模型能力差距 [13][21][27] - AI Agent市场快速增长,预计从2024年51亿美元增至2030年471亿美元(CAGR 44.8%),巨头与初创公司技术路线分化 [45][46] 技术对比 - **OpenAI技术路线**:端到端训练的统一模型(o3系列),在《人类的最后考试》测试中得分41.6%(pass@1),SpreadsheetBench性能达投行分析师1-3年经验水平 [9][29][32] - **初创公司技术路线**:依赖上下文工程(如Manus的KV缓存设计),首个token生成成本降低10倍,通过提示工程优化使数学题正确率从27%提升至49% [36][37][40][42] 行业竞争动态 - Manus在OpenAI发布后3小时内发布10条对比测试,展示更优的行程海报、财务分析PPT等任务完成度 [13][15][20] - Genspark宣称其24人团队在响应速度、成本和质量上"领先OpenAI好几倍",并发布9个对比案例 [21] - OpenAI承认当前ChatGPT Agent速度较慢(部分任务需20分钟),但强调后台持续推理能力(最长2小时) [24] 市场影响 - 微软CEO称20%-30%代码由AI生成,Klarna的AI Agent替代700名客服,显示AI Agent已实质性改变劳动力结构 [45] - OpenAI计划整合支付系统向商家收取佣金,商业化步伐加速 [49] 产品差异 - **OpenAI**:强调底层模型能力,输出标准格式文件(如Excel/PPT),用户需二次加工 [24][32] - **初创公司**:提供现成模板和设计(如Manus的行程海报、Genspark的图表总结),降低用户使用门槛 [13][21][27]
OpenAI上新Manus撤退 AI智能体两面
北京商报· 2025-07-20 22:31
OpenAI ChatGPT Agent发布 - OpenAI发布ChatGPT Agent智能体,具备自主思考和行动能力,能主动选择工具完成复杂任务如查看日历分析会议、分析竞争对手创建幻灯片、将截图转为可编辑PPT等[2][3] - ChatGPT Agent整合Operator的网页操作能力、Deep Research的信息整合能力和ChatGPT对话能力,形成统一智能体系统[3] - 智能体系统支持调用可视化浏览器、文本浏览器、终端工具和API接口,分别用于网页交互、文本处理、代码运行和应用数据访问[4] - 金融交易等高敏感操作受限制,执行重要操作需用户授权,访问金融网站时限制标签页切换以确保安全[4][5] Manus中国市场调整 - Manus清空国内社交平台内容,官网显示地区不可用,被曝将总部迁至新加坡并裁减中国区约80名非核心员工[6] - 公司回应称调整基于经营效率考量,核心研发团队40多人迁往新加坡[6] - 联合创始人季逸超技术复盘显示团队经历四次框架调整,选择基于开源/商业大模型构建智能体而非自研[6] - 外界猜测迁址或为规避美国投资审查风险,且因主要依赖Claude模型在国内面临成本与合规挑战[7] 智能体行业动态 - 2024年全球AI智能体市场规模预计54亿美元,2025年可能成为AI Agent元年[8] - 基础大模型能力决定Agent上限,C端Agent受大厂和创业公司重点关注,OpenAI、Google、字节、阿里等积极布局[8] - Gartner预测智能体市场将经历退潮,到2027年底超40%项目可能被取消[8] - 当前Agent在复杂工具调用中可达90%准确率,但基础模型尚难自主调用上万个工具[9]