OpenAI发布ChatGPT Agent：部分能力超越人类，但做电子表格仍不如人类

ChatGPT Agent功能更新 - ChatGPT Agent融合Operator智能体网页交互能力与Deep Research功能，具备内置计算机能帮助用户完成复杂多步骤任务[1] - 新功能包括主动选择工具完成任务，例如查看日历并介绍会议、分析竞争对手创建幻灯片、执行重复任务如更新电子表格和重新安排会议[1] - 工作流程涵盖浏览网站、过滤结果、提醒登录账号、运行账号、分析数据、创建电子表格和幻灯片[1] - 智能体系统整合Operator的网站调动能力、Deep Research信息整合能力与ChatGPT对话能力，形成统一平台[2] - 系统可调用可视化浏览器、文本浏览器、终端工具和API接口，分别用于网页交互、处理文本、运行代码和访问应用数据[2] 性能基准测试表现 - 在Humanity's Last Exam测试中准确率41.6%，超过Deep Research的26.6%和o3模型的24.9%[3] - FrontierMath数学测试准确率27.4%，高于o4 mini的19.3%和o3的10.3%[3] - 内部评测显示约半数案例表现与人类持平或更优[3] - DSBench测试中数据分析与建模准确率分别为89.9%和85.5%，超过人类水平[3] - 在投资银行分析师建模任务基准上准确率高于o3和Deep Research[3] - SpreadsheetBench测试最高得分45.5%，仍低于人类的71.3%[6] 技术发展与行业竞争 - 公司表示此次更新是迭代起点，将持续改进智能体系统[9] - Agent能力依赖基础模型性能，GPT-5预计今年夏季推出以应对DeepSeek等竞争对手[9] - 开发者预测年内Agent可在数十步复杂工具调用中实现90%准确率，接近商用标准[9] - 当前基础模型尚无法自主调用上万个工具并执行任务[9]