文章核心观点 - AI 2025年的核心主题是Agent模式,标志着从"动嘴"到"动手"的转变,AI将直接完成复杂任务[1][35] - OpenAI推出的Agent模式整合了Operator和Deep Research工具,实现虚拟机内自主操作浏览器、终端等工具完成实际工作[2][15][18] - 该模式完成复杂任务(如婚礼策划、商品设计下单)仅需10-25分钟,效率显著高于人工[12][13][14] - 使用工具后模型在Humanities Last Exam测试得分提升至42%,接近Grok 4 Heavy的45%[22][23] - Agent时代将重塑人机关系,带来隐私安全、工作替代等社会挑战[33][36][37] Agent模式功能 - 可调用文本浏览器、可视化浏览器和终端三种工具,自主切换完成信息检索、图像处理、代码运行等[6][7] - 演示案例包括:婚礼策划(10分钟生成服装/酒店/礼物全套方案)、宠物周边设计下单(调用Image Gen API)、旅行攻略制作(25分钟生成电子表格+地图)[10][12][13][14] - 支持任务中途插入新需求,允许用户实时交互和手动接管[5] 技术实现路径 - 由Operator(图形界面操作工具)和Deep Research(深度调研工具)融合而成,解决单一工具局限性[15][17] - 通过强化学习训练工具使用策略,初期笨拙尝试所有工具,后期学会最优工具组合(如创意作品先搜索→终端编码→浏览器验证)[20][21] - 在WebArena和SpreadsheetBench测试中接近人类水平,网页操作能力尤其突出[30] 商业化进展 - 开放范围扩大至Plus/Team用户,每月提供40次使用额度,相比此前Pro用户优先策略更具普惠性[3] - 执行效率显著提升:复杂报告生成时间从小时级压缩至10分钟级,预订类任务7分钟可完成[12][17] 行业影响 - 可能催生Agent应用生态,但也对Manus等第三方开发者形成竞争压力[32] - 将重新定义白领工作效率标准,可能加速某些岗位的自动化替代[37] - 需要建立新的安全规范应对虚拟机操作带来的隐私风险(如信用卡信息泄露)[33][34]
OpenAI 发布 ChatGPT Agent:已向付费用户开放,与 Manus 相似
Founder Park·2025-07-18 11:19