通用智能体(Agent)

搜索文档
刚刚,OpenAI通用智能体ChatGPT Agent正式登场
机器之心· 2025-07-18 08:38
核心观点 - OpenAI发布全新ChatGPT Agent,具备通用智能体能力,可主动利用多种工具完成复杂任务,如自动浏览日历、生成PPT、运行代码等[4][6][9] - ChatGPT Agent在HLE基准测试中得分41.6%,是o3和o4-mini模型的两倍[6] - 该产品标志着AI从问答工具升级为能执行现实任务的智能体,CEO称其为"感受AGI"的关键时刻[9][10] 产品功能 - 支持连接Gmail、GitHub等应用API获取信息,使用虚拟计算机环境处理工作流[6][27][28] - 整合Operator网页交互、deep research信息综合及ChatGPT推理三大能力[19][24][25] - 提供可视化浏览器、文本浏览器、终端命令行及API调用等全套工具[26][28] - 用户可实时干预任务流程,Agent会主动请求权限确认[20][30][31] 性能表现 - 在Humanity's Last Exam评估中Pass@1分数达41.6,并行策略下提升至44.4[34][35] - FrontierMath数学测试准确率27.4%,显著超越此前模型[37] - SpreadsheetBench电子表格编辑得分45.5%,远超Excel Copilot的20%[42] - BrowseComp网络信息检索测试创68.9% SOTA记录,较deep research提升17.4个百分点[47] 商业化进展 - 已向Pro/Plus/Team订阅用户开放,Pro用户月均400次提示额度[7][8] - 企业版和教育版计划夏季推出,免费版上线时间未定[8] - 实际案例显示可20分钟内完成财务规划等专业任务,效率媲美人工服务[58][59] 技术架构 - 采用动态规划策略自主选择工具组合,支持八线程并行执行[28][35] - 通过虚拟计算机保留任务上下文,实现跨工具协同工作[28] - 迭代式工作流设计允许用户随时修正指令且不丢失进度[30][31]