OpenAI发布ChatGPT Agent：AI"代理人"已至，人类准备好交出操作权了吗？

产品发布 - OpenAI发布ChatGPT Agent，具备自主执行复杂任务能力，可完成搜索、筛选、判断、执行等一整套流程并输出可交付结果 [1] - ChatGPT Agent定位为多工具整合智能体系统，拥有终端、图形浏览器、文本浏览器，功能相当于受控的远程虚拟操作系统 [1] - 该产品是Operator和Deep Research两个子产品的融合，Operator偏执行，Deep Research偏思考 [1][17] 技术能力 - ChatGPT Agent具备三大基础能力组件：文本浏览器负责信息爬梳与筛选，可视化浏览器支持界面识别与交互，终端支持代码执行和文件生成 [2][4] - 这些能力协同形成完整的"感知-决策-执行"链路，例如在旅行安排任务中可综合使用多种工具，10分钟完成人类需更长时间处理的任务 [6] - 在复杂场景中可自动调用API设计贴纸、操作购物流程、连接Google Drive处理文档并生成PPT或电子表格行程表 [8] 性能表现 - 在"人类的最后一场大考"测试中获得41.6%成绩，是不带工具模型的两倍，展现强大的推理与工具调度能力 [11] - WebArena网页交互测试得分接近人类水平，SpreadsheetBench电子表格操作测试得分45.5%，较GPT-4o提升一倍 [14] - DSBench数据分析测试超过所有此前的SOTA模型，表明其在现实数据分析任务中的强大能力 [16] 技术演进 - 通过强化学习方法教会模型如何调度工具，采用类似课程学习策略从简入繁掌握工具使用逻辑 [18] - 标志AI从"语言智能"进入"操作智能"新阶段，完成从"助手"向"代理人"角色的转变 [17][18] - 产品结构类似未来操作系统雏形，具备动态调度资源、主动规划流程、与人类深度交互的能力 [18] 市场策略 - 将能力下放到Plus、Team乃至企业级服务中，使Agent不再是高级用户特权 [19] - 借助Agent热潮吸引更多用户，扩大在大模型赛道的话语权 [19] - 未来可能发展开放插件生态，承接SaaS级别复杂度任务，嵌入企业专属工作流 [19]