Workflow
Operator
icon
搜索文档
一夜刷屏,27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
36氪· 2025-09-12 12:04
腾讯刚辟谣「姚顺雨入职」,但行业并未松口气: 顶尖智能体人才去哪儿,或将决定AI下半场的走向。27岁、清华姚班、普林斯顿博士、OpenAI智能体核心项目,引用过万……他提出「评测将比训练更 重要」,把研究拉向产品与可度量价值。 姚顺雨昨天被传加入腾讯,今早「第37手」和腾讯旗下的「鹅厂黑板报」正式辟谣! | 为什么姚顺雨能引起行业如此大的关注?为什么会传出来一亿人民币的天价薪酬传闻? | | --- | | 自然少不了Meta在硅谷的天价挖角:小扎给OpenAI核心研究员的报价就是1亿美元! | | 如此看来,一亿人民币绝对不算高;同理,如果他入职国内公司,谁给得起1亿美元的薪酬包? | | 他绝对值得Meta给出1亿美元的报价——他是Deep Research的核心贡献者。 | 要知道,作为OpenAI Deep Research的核心贡献者Hyung Won Chuang已经加入了Meta的超级智能实验室。 这是OpenAI迈向AGI Levele 3的关键一步,代表着OpenAI将大模型能力落地为可自主执行复杂多步任务的实用型产品,开启从「会聊天」到「会办事」 的关键跃迁。 这次辟谣只能说明姚顺雨没去腾 ...
深度|OpenAI Agent团队:未来属于单一的、无所不知的超级Agent,而不是功能割裂的工具集合,所有技能都存在着正向迁移
Z Potentials· 2025-08-29 11:52
核心观点 - OpenAI通过合并Deep Research和Operator项目开发出新型AI Agent 能够执行长达一小时复杂任务 具备多工具协同和状态共享能力 开启人机协作新范式 [2][5][6][7][19][24][42] 技术架构与能力 - Agent配备虚拟计算机环境 集成文本浏览器 GUI浏览器 终端和API调用工具 所有工具共享状态 实现跨工具无缝切换 [5][6][24] - 支持运行代码 分析文件 创建电子表格和幻灯片 访问GitHub Google Drive等私有服务 [5][6][11] - 单次任务推理时间达28分钟至1小时 突破传统上下文长度限制 [19][20][21] - 采用强化学习训练 在数千个虚拟机上进行实验 模型自主学会工具使用策略 [7][24][26][45] 产品演进路径 - 2024年1月先后发布Operator(执行网页交互任务)和Deep Research(信息综合研究) 两周后意识到功能互补性 [9] - 文本浏览器擅长高效阅读但缺乏交互 GUI浏览器擅长点击操作但文本处理弱 合并后实现能力互补 [9][10] - 新增终端 图片生成 API调用等工具 形成完整工具生态 [11][12][13] 应用场景与用例 - 设计保持开放性 预期出现未预见用例 类似Deep Research曾被用于代码搜索的意外场景 [14][40] - 实际用例包括:从实验日志提取数据制作幻灯片 研究古代DNA生成报告 网上购物比价 创建财务模型估算公司估值 [16][18] - 同时适用于消费级和企业级场景 目标用户为"专业消费者"(prosumer)[15] 人机交互特性 - 支持双向实时交互 用户可中途打断 纠正指令或授权登录 Agent也可主动请求澄清 [7][22] - 提供计算机界面实时观察Agent操作 任务完成后可追溯修改 用户可接管环境手动操作 [23] - 交互模式向"幕僚长"形态演进 未来可能实现主动服务 [42][43] 训练方法与扩展性 - 强化学习数据效率极高 高质量小规模数据集即可训练 数据量较预训练可忽略不计 [44] - 计算资源与训练数据量增长约十万倍 使"World of Bits"愿景成为可能 [45] - 所有技能存在正向迁移 单一基础模型比专用子Agent更具优势 [44] 性能表现 - 在DataScienceBench评估中超越人类基准 具备超人级研究能力 [46] - 点击准确度大幅提升 表单填写可靠性显著改善 日期选择仍存挑战 [46][47][48] 开发团队构成 - 由原Deep Research团队(3-4人)和Operator团队(6-8人)合并而成 [30][33][34] - 研究团队与应用团队深度协作 从用例反向定义产品需求 [34][35] - 跨部门合作涉及安全 治理 法律 研究 工程等多团队 [28] 安全风险管控 - 因具备写入能力 存在外部副作用风险 安全训练为核心开发环节 [26][27] - 采用监控系统实时检测异常行为 类似杀毒软件机制 [27] - 重点防范生物安全风险 进行数周红队测试确保不被用于有害目的 [29]
全球AI商业化:到了哪一步?后续怎么看?
2025-08-25 22:36
行业与公司 * AI应用商业化行业 包括大模型、多模态、编程工具、垂直领域代理等多个细分领域[1][2][27] * 涉及公司包括OpenAI、Anthropic、Cursor、Runway、Midjourney、可灵(Kolin)、Figma、Grammarly、智谱、PictureThis、焦点科技、美图、凯英网络、快手、万兴科技、佳宸科技、易点天下等[1][2][3][4][11][17][20][25][26][32] 核心观点与论据 大模型公司商业模式与估值 * OpenAI估值达130亿美元 收入主要来自会员订阅 具有较强ToC属性 约60-70%收入来自会员订阅[1][2][6] * Anthropic估值约40亿美元 收入主要来自API调用 具有较强ToB属性 约70%收入来自API调用[1][2][6] * OpenAI和Anthropic的年度经常性收入(ARR)在2024年底至2025年初期间增长曲线变得陡峭 OpenAI收入增长速度明显快于Anthropic 归因于C端产品的高弹性[9] * OpenAI预计2025年底ARR将从130亿美元增至200亿美元[10] * 全球估值超过1亿美金的AI公司估值中枢大约在30到50倍PS之间[16] 垂直领域应用的成功路径 * 赋能原有场景 Figma在2024年第二季度和第三季度因新增AI功能实现了显著收入增长 Grammarly在2023年推出AI功能后收入接近翻倍 2024年增速约为40%[3][13] * 降本增效 编程工具Cursor是最快突破5亿美元规模的AI应用之一 其增长得益于大模型迭代升级、价格下降以及企业降低人力成本的需求[4][7] * 垂类agent在通用agent普及下仍有生存空间 PictureThis通过高质量数据积累实现植物识别准确率超过90% 并根据用户需求提供增值服务 使其在2024年实现正增长[20] 多模态应用的发展与优势 * 多模态AI应用如Runway和Midjourney面向专业内容创作者 通过提高内容生成效率实现商业化 主要市场为P端订阅者[4][8] * 多模态领域竞争激烈 参与者包括可灵、Runway、谷歌View以及万兴、天宫等A股上市公司[11] * 多模态模型具备丰富应用场景 如自媒体内容生成、广告素材制作、游戏二创及影视剧制作 多数工具采用订阅制收费模式 以B端用户为主 C端用户比例逐渐增加[11][15] * 可灵披露使用AI生成短剧相比真人短剧制作成本降低90%以上[15] 编程工具市场前景 * 海外编程工具如Cursor表现良好 国产编程工具如千问三Quarter数据表现也非常出色 从API调用数量看处于爆发前期 预计整个编程市场尤其是国产编程领域将迎来快速发展期[14] 国产AI应用的特点与挑战 * 国产AI应用落地与全球趋势一致 主要集中在多模态、trade agent、AI陪伴和通用agent等方向[17] * 可灵(Kolin)在多模态领域表现突出 年收入已超1亿美元 预计2025年全年收入将达到2至2.5亿美元 其70%收入来自海外市场 网页版90%访问量来自海外[17] * 可灵的成功因素包括多模态场景明确且受众广泛、国内模型功能迭代速度快、通过细致划分价格梯度提高转化率[18] * 国内通用AI代理商业化进程较慢 与OpenAI和Anthropic等国际头部企业相比有差距[21] * 国内C端用户付费习惯相对较差 更倾向于免费服务 导致通用AI代理主要以对话模式为主 体验未能显著差异化 无法吸引用户付费[22] * 国内通用AI代理市场竞争激烈 不同公司轮流表现突出 但尚未形成稳定的商业化模式 目前主要关注抢占用户[23][24] * 智谱推出的Auto GM2.0通过将对话模式升级为执行助手 实现如点外卖、订机票等任务 具备成为AI时代流量入口的潜力 但其变现方式(如抽佣或广告)尚未成熟[24] 其他垂直领域与AI陪伴 * 焦点科技推出的外贸助手Aimark 2024年现金收入达4500万元 确认收入约2400万元 增速超过100%[25] * 美图推出的一站式图像、视频编辑工具Roboneo处于测试阶段 融合美颜及设计应用场景[25] * AI陪伴领域发展迅速 玩法与游戏类似 通过打破次元壁在聊天过程中触发送礼物等功能进行变现 如凯英推出的Eve Character AI和Talky显示出良好市场前景[26] 其他重要内容 商业化催化因素 * 新一轮基础模型密集发布 如GPT-5、智谱模型以及Deepseek V3.1等 这些模型提升了性能并提高了性价比 在相同指令下调用成本下降 有助于降低研发及推广成本 加速商业化落地[33] * Deepseek、LLAMA以及Gemini等新版本模型即将发布 进一步推动AI应用商业化进程[33] * 2025年第二季度数据表明 Gemini和豆包等平台的吞吐量显著增长 与AI应用商业化步伐一致 吞吐量可作为衡量应用热度的重要指标[30] 投资建议与看好的方向 * 最看好的投资方向是多模态和垂直领域的AI代理 这两个方向发展空间广阔且确定性较高 已产生大规模收入[31] * 其他值得关注的方向包括程序化广告、社交及陪伴类应用[31] * 推荐关注的公司包括快手、美图、佳宸科技、万兴科技 以及广告端易点天下和社交端凯英网络[32] * 应重视具有实际收入场景落地能力公司的投资机会[33]
喝点VC|红杉对谈OpenAI Agent团队:将Deep Research与Operator整合成主动为你做事的最强Agent
Z Potentials· 2025-08-14 11:33
核心观点 - OpenAI通过合并Deep Research和Operator项目,开发出能执行长达一小时复杂任务的AI Agent,具备文本浏览、GUI操作、终端访问及API调用等综合能力 [5][6][11] - 该Agent采用"强化学习+共享工具集"训练方法,所有工具共享状态,支持多轮交互和任务中断/纠正,开启"下达任务后离开"的新范式 [6][22][24] - 团队认为未来属于单一全能型Agent而非功能割裂的工具集合,因不同技能间存在显著正向迁移效应 [7][44] Deep Research与Operator的融合 - Deep Research擅长文本浏览与信息综合但缺乏GUI交互能力,Operator精于可视化操作但文本处理较弱,两者互补形成"1+1>3"效果 [9][10] - 合并后新增终端工具、图片生成、API调用等功能,可创建电子表格/幻灯片等产出物 [11][12][13] - 典型用例包括学术研究整合、购物决策辅助、财务模型构建等,最长任务耗时1小时 [16][18][20] 技术实现与训练方法 - 采用强化学习在虚拟机环境训练,模型自主掌握工具使用逻辑而非人工编程规则 [24] - 训练规模较早期项目提升约10万倍,数据效率极高,小规模高质量数据集即可实现复杂能力 [45] - 突破性在于工具状态共享和上下文长度限制突破,支持跨工具无缝切换 [6][21] 产品特性与交互设计 - 设计为开放式模糊命名,鼓励用户探索未预设的用例(如代码搜索等意外场景) [14] - 支持实时观察任务进度、中途干预、后续修改等"旁观接管"式交互 [23] - 当前专注"专业消费者"场景,兼顾个人消费与工作需求 [15] 未来发展路径 - 短期聚焦提升基础操作准确性(如表单填写等)和任务多样性覆盖能力 [46][47] - 长期探索Agent自主决策、个性化记忆及多模态交互界面 [42][49] - 技术瓶颈在于真实世界交互的稳定性(网站宕机等)和安全风险控制 [26][27] 团队协作模式 - 由原Deep Research(3-4人)和Operator(6-8人)团队合并,研究与应用团队深度协同 [30][34] - 采用"用例反推"开发模式,产品需求直接驱动模型训练 [34] - 跨部门协作涉及安全/法律/工程等多团队联合红队测试 [28][29]
AI的下一阶段:“LifeOS”对文化娱乐生活的四大颠覆
36氪· 2025-08-12 10:04
核心观点 - OpenAI创始人提出AI将从被动工具转变为主动的"人生操作系统"(LifeOS) 通过长期记忆用户数据实现个性化生活规划和情感理解 [1][2][5] 技术架构与演进 - AI范式从"问答工具"转向"个性化操作系统" 实现从响应指令到预测需求的模式转变 [5] - 核心特征包括持续性交互、多模态数据整合、主动性服务、高度个性化及跨设备无缝体验 [7] - 技术路径依赖AI智能体(如OpenAI Operator)和硬件载体(如AI PC) 当前处于从辅助工具向个人助手过渡阶段 [10] 文化娱乐产业影响 - AI在媒体娱乐市场规模预计从2025年311.8亿美元增至2030年775.8亿美元 CAGR达20% [11] - AI伴侣市场增速更达39.71% CAGR 显示强劲增长潜力 [11] - 内容消费从算法推荐升级为实时生成 例如根据情绪动态调整影视节奏与音乐风格 [14][15] - 娱乐体验打破物理与数字界限 如VR演唱会根据观众情绪调整舞台效果 [20] - 社交模式重塑 AI伴侣可提供情感支持(如Replika案例)并增强人际连接 [24][25] - 创作范式从人机协同转向AI自主创作 如ChatGPT-5提升多模态创作能力 [28][29] 应用场景案例 - Netflix试验动态叙事技术 根据用户偏好调整剧集情节与剪辑 [17] - 迪士尼Magic Band+手环实现个性化园区体验 预示与LifeOS结合潜力 [21] - OpenAI的ChatGPT-5在推理记忆和多模态方面升级 支撑复杂文化创作 [29] 实施基础 - 需整合文本、语音、行为轨迹、健康参数等多维度用户数据构建完整画像 [7] - 依赖VR/AR技术实现沉浸式互动体验 如定制化虚拟世界与互动电影 [15][20]
OpenAI迎来“Agent时刻”:智能体大战的路线选择
虎嗅· 2025-08-04 10:47
文章核心观点 - OpenAI发布通用型ChatGPT Agent,整合深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,但存在速度慢、个性化不足等短板 [1] - ChatGPT Agent采用"浏览器+沙盒虚拟机"架构,与Manus、Genspark形成技术路线差异 [1] - Agent将重塑互联网入口,改变流量分发模式,对创作者商业模式产生影响 [52][56][64] 主流底层架构对比 - 浏览器(Browser-based)代理:万能但运行速度慢,Token消耗高 [12][13][14] - 沙盒(Sandbox)环境:高效但无法联网操作,工具库受限 [16][17] - 大模型加限制沙盒:如Genspark,环境封闭,仅能运行预设程序包 [18][19] - 工作流集成(Workflow API):速度快、结果精准,但业务范围有限 [21] 主要Agent产品优劣势 - OpenAI ChatGPT Agent:深度研究能力强,浏览器执行层面表现优异,基准测试达50多分(其他最高20多分) [4][6] - Manus:虚拟机环境搭建优势,但受浏览器能力限制,执行速度慢(30多分钟/任务) [27][28][31] - Genspark:垂直化模板设计,速度较快但通用性下降 [33][34] - Pokee:执行速度最快(市面产品的4-10倍),采用第三方集成SDK,Token成本降低50%-60% [36][40] 用户体验差异 - 浏览器架构Agent(如Manus、ChatGPT):功能全面但速度慢 [27][28] - 沙盒架构Agent(如Genspark):执行速度快但功能受限 [34] - 工作流集成Agent(如Pokee):专业场景高效但需平台接口支持 [40][41] 商业模式与技术路线 - ToC产品(Manus、Genspark、ChatGPT Agent):面向普通消费者,解决通用需求 [46] - ToB产品(如Pokee):针对专业人士重复性工作场景 [46][48] - 平台接口开放程度直接影响Agent能力边界 [43][48] 行业趋势与影响 - Agent将改变互联网流量入口模式,门户网站流量可能下降 [52][56] - 广告模式可能从流量分成转向知识产权直接付费 [64] - 推荐系统算法可能从排名导向转向连续交互机制 [67][68][69] - 多智能体协作协议(MCP)发展面临可用性挑战 [58][59]
OpenAI杀入通用AI Agent的背后:四大技术流派与下一个万亿流量之战
36氪· 2025-08-03 17:57
OpenAI发布ChatGPT Agent进军通用AI Agent赛道 - 7月17日OpenAI正式发布ChatGPT Agent 融合Deep Research(搜索)和Operator(执行)两大工具 实现"搜索与执行"一体化能力 [1][4] - 技术路线基于浏览器控制 通过视觉模型模拟人类网页操作 通用性强但速度慢 任务耗时可达几十分钟 [7][9][12] - 发布当日ChatGPT日指令量达25亿条 年化9125亿次 相当于谷歌年搜索量的18% [48] 通用AI Agent四大技术流派对比 浏览器为主派(OpenAI) - 优势:全网访问 通用性极强 视觉模型和浏览器点击能力领先行业 [9][13] - 劣势:需加载完整HTML和脚本 Token消耗高 速度慢成为主要痛点 [10][12] 虚拟机+浏览器派(Manus) - 沙盒虚拟机提供隔离计算环境 可本地执行复杂操作 结合浏览器增强功能 [14][16] - 4月融资7500万美元 估值5亿美元 但受限于浏览器能力 页面导航等精细操作困难 [20][22] 大模型+虚拟机派(GensPark) - 限制性沙盒环境搭配预置工具 通过API直接调用服务 牺牲通用性换取速度 [24][26] - A轮融资1亿美元 估值5.3亿美元 集成80多个预构建工具 标准化工作流提升可靠性 [28][31] 工作流+工具集成派(Pokee/UiPath) - 预设节点调用第三方应用 速度达行业4-10倍 工具调用成本降低50%-60% [32][34] - 强化学习自动规划流程 但局限于特定场景 通用性不足 [33] 未来流量入口与商业模式变革 - Agent交互将产生"幽灵光标"现象 取代人类成为互联网访问主力 门户网站流量面临断崖式下跌 [39][41][42] - Google推出Agent2Agent协议争夺入口标准 内容付费模式可能取代广告分成 [42][46] - 创作者可通过API直接收费 广告嵌入Agent工作流环节 商业生态面临重构 [46]
OpenAI杀入通用AI Agent背后:四大技术流派与下一个万亿流量之战
虎嗅· 2025-08-03 16:22
通用AI Agent技术路线分析 - OpenAI推出ChatGPT Agent,融合Deep Research和Operator工具,实现"搜索与执行"一体化功能 [7][8] - 目前通用Agent领域形成四大技术派系:浏览器为主派、虚拟机+浏览器派、大模型+虚拟机派、工作流+工具集成派 [11][59] - 浏览器为主派(OpenAI)优势在于通用性强但速度慢,任务完成需几十分钟 [15][17][20] - 虚拟机+浏览器派(Manus)本地执行效率高但外部访问受限,4月融资7500万美元估值5亿美元 [34][35] - 大模型+虚拟机派(GensPark)牺牲通用性换取速度,A轮融资1亿美元估值5.3亿美元 [45][47] - 工作流+工具集成派(Pokee/UiPath)速度快但通用性差,速度可达其他产品4-10倍 [57][58] 行业竞争格局 - OpenAI入局引发市场格局洗牌,ChatGPT日指令量达25亿条,相当于谷歌年搜索量18% [75][76] - 各技术路线代表公司:OpenAI(ChatGPT Agent)、Manus、GensPark、Pokee/Zapier/UiPath [59] - 通用性与速度稳定性难以兼得,OpenAI和Manus选择通用性,GensPark和Pokee选择速度 [60] - 行业趋势从通用转向专精场景,通过工作流提升用户留存率 [61][62] 未来流量入口变革 - AI Agent将成为互联网访问主力军,产生"幽灵光标"现象 [66][67] - 传统门户网站流量将快速下降,流量入口转向各方向Agent [70] - Google推出Agent2Agent协议试图占据入口地位,ChatGPT和Claude也在布局 [70] - 广告模式将颠覆,内容创作者可通过Agent直接收费 [72]
硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
机器之心· 2025-07-28 12:24
大模型技术演进与发展之路 核心观点 - 大模型技术从预训练为主转向强化学习主导的范式转变 [10][17][19] - 行业面临Transformer架构局限性、数据枯竭、开源闭源博弈等核心挑战 [31][41][59] - Agent应用爆发与基础模型研发需双轨并行 [53][54][55] 训练范式转变 - OpenAI从GPT-4o的预训练主导转向o1的强化学习后训练,提出测试时间扩展新维度 [13][14][15] - 强化学习可解决行为克隆难以建立目标导向推理能力的问题,但需突破自然语言反馈限制 [21][22][23] - 预训练仍是强化学习冷启动的基础,但需解决奖励机制和算力效率挑战 [25][26][27] 模型架构演进 - Transformer面临O(n²)扩展性、显存占用和长期记忆三大瓶颈 [31] - 优化路径包括RoPE位置编码、分组查询注意力等改进,以及Mamba等非Transformer架构探索 [33][34] - 智能体时代可能推动RNN架构回归,需建模无限上下文能力 [37][38] 数据供给挑战 - 高质量语料预计2028年耗尽,合成数据被Anthropic/OpenAI等广泛应用但存在迭代崩溃风险 [41][42][43] - 英伟达提出物理仿真生成边缘案例,需建立真实世界验证闭环 [44][45] - 行业数据未充分挖掘,应建立非敏感数据共享机制提升预训练质量 [46][48][51] 商业化落地路径 - 2025年Agent产品成爆点(如OpenAI Operator、智谱AutoGLM),但基础模型研发仍持续 [53][54] - 大模型当前相当于自动驾驶L3阶段,距AGI仍有差距 [55] - 金融等领域落地需突破大规模数据处理等技术瓶颈 [56][57] 开源生态影响 - DeepSeek等开源模型性能逼近闭源,冲击传统GPU/闭源产业链 [60][61] - 开源推动资源合理配置并形成行业压力,但需解决分叉滥用问题 [63][64][67] - 英伟达支持开源算力引擎,未来可能走向混合模式 [65][66]
OpenAI会杀死Manus们吗?
创业邦· 2025-07-22 11:02
核心观点 - OpenAI发布ChatGPT Agent,通过专用模型实现任务规划、跨工具调用和文档生成等复杂流程,显著提升AI Agent能力 [5][9] - 初创公司如Manus和Genspark通过工程优化和上下文设计在响应速度、任务完成度和用户体验上暂时领先,但面临底层模型能力差距 [13][21][27] - AI Agent市场快速增长,预计从2024年51亿美元增至2030年471亿美元(CAGR 44.8%),巨头与初创公司技术路线分化 [45][46] 技术对比 - **OpenAI技术路线**:端到端训练的统一模型(o3系列),在《人类的最后考试》测试中得分41.6%(pass@1),SpreadsheetBench性能达投行分析师1-3年经验水平 [9][29][32] - **初创公司技术路线**:依赖上下文工程(如Manus的KV缓存设计),首个token生成成本降低10倍,通过提示工程优化使数学题正确率从27%提升至49% [36][37][40][42] 行业竞争动态 - Manus在OpenAI发布后3小时内发布10条对比测试,展示更优的行程海报、财务分析PPT等任务完成度 [13][15][20] - Genspark宣称其24人团队在响应速度、成本和质量上"领先OpenAI好几倍",并发布9个对比案例 [21] - OpenAI承认当前ChatGPT Agent速度较慢(部分任务需20分钟),但强调后台持续推理能力(最长2小时) [24] 市场影响 - 微软CEO称20%-30%代码由AI生成,Klarna的AI Agent替代700名客服,显示AI Agent已实质性改变劳动力结构 [45] - OpenAI计划整合支付系统向商家收取佣金,商业化步伐加速 [49] 产品差异 - **OpenAI**:强调底层模型能力,输出标准格式文件(如Excel/PPT),用户需二次加工 [24][32] - **初创公司**:提供现成模板和设计(如Manus的行程海报、Genspark的图表总结),降低用户使用门槛 [13][21][27]