ChatGPT Agent功能更新 - ChatGPT Agent融合Operator智能体网页交互能力与Deep Research功能,具备内置计算机能帮助用户完成复杂多步骤任务[1] - 新功能包括主动选择工具完成任务,例如查看日历并介绍会议、分析竞争对手创建幻灯片、执行重复任务如更新电子表格和重新安排会议[1] - 工作流程涵盖浏览网站、过滤结果、提醒登录账号、运行账号、分析数据、创建电子表格和幻灯片[1] - 智能体系统整合Operator的网站调动能力、Deep Research信息整合能力与ChatGPT对话能力,形成统一平台[2] - 系统可调用可视化浏览器、文本浏览器、终端工具和API接口,分别用于网页交互、处理文本、运行代码和访问应用数据[2] 性能基准测试表现 - 在Humanity's Last Exam测试中准确率41.6%,超过Deep Research的26.6%和o3模型的24.9%[3] - FrontierMath数学测试准确率27.4%,高于o4 mini的19.3%和o3的10.3%[3] - 内部评测显示约半数案例表现与人类持平或更优[3] - DSBench测试中数据分析与建模准确率分别为89.9%和85.5%,超过人类水平[3] - 在投资银行分析师建模任务基准上准确率高于o3和Deep Research[3] - SpreadsheetBench测试最高得分45.5%,仍低于人类的71.3%[6] 技术发展与行业竞争 - 公司表示此次更新是迭代起点,将持续改进智能体系统[9] - Agent能力依赖基础模型性能,GPT-5预计今年夏季推出以应对DeepSeek等竞争对手[9] - 开发者预测年内Agent可在数十步复杂工具调用中实现90%准确率,接近商用标准[9] - 当前基础模型尚无法自主调用上万个工具并执行任务[9]
OpenAI发布ChatGPT Agent:部分能力超越人类,但做电子表格仍不如人类
第一财经·2025-07-18 13:13