Workflow
智能体人工智能(agentic AI)
icon
搜索文档
OpenAI新Agent遭中国24人初创团队碾压!实测成本、质量全输惨,海外用户:中国Agent代差领先
AI前线· 2025-07-18 14:00
产品功能更新 - OpenAI推出ChatGPT Agent功能 标志着正式进入智能体人工智能领域 该系统能通过控制网页浏览器自主执行多步骤任务[1] - 新功能整合Operator工具和Deep Research能力 支持浏览网站、运行代码、创建文档 用户可随时中断或接管控制权 包含需全程监督的"观察模式"[1] - 采用虚拟沙盒环境执行任务 拥有独立操作系统和联网浏览器 不直接控制用户设备 实现推理与行动无缝切换[2] - 应用场景包括服装搭配购买、PPT制作、膳食规划、财务数据更新等 通过浏览器、终端和API连接器集成Gmail/GitHub等应用[2] 产品发布计划 - 即日起向Pro/Plus/Team用户开放 企业/教育用户将在未来几周内获得访问权限[3] - Operator预览网站将在几周后关闭 因其功能已被Agent全面超越[3] 技术性能表现 - 在Humanity's Last Exam测试中准确率达41.6% 较o3模型提升16.7个百分点[7] - FrontierMath测试准确率27.4% 比o3模型使用Python时高8.1个百分点[7] - DSBench数据分析得分89.9% 数据建模85.5% 分别超越人类25.8/20.5个百分点[7] - BrowseComp网络信息检索得分68.9% SpreadsheetBench电子表格编辑45.5% 均优于其他AI模型[8] 实际应用案例 - 用户实测生成NVIDIA财务分析报告 包含风险溢价5%、EBIT利润率60%等详细假设 但计算精度逊于投行初级分析师[8] - 幻灯片生成功能处于测试阶段 9分钟产出基础框架 需人工修改达到实用水平[8] - 通过强化学习自我改进输出质量 但被指Manus等竞品早已实现类似功能[10] 现存技术局限 - 在PaperBench/SWE-Bench等专业测试中表现不及o3模型[13] - 处理Kaggle数据集时出现数据准确性偏差 需人工反馈修正[15] - 网络靶场测试中无法完成复杂串联任务 仅能执行初始研究步骤[18] - 被开发者批评过度包装技术 牺牲定制化能力 专业场景仍依赖Claude Code等工具[19] 市场竞争对比 - 被指落后于中国团队产品 Genspark Super Agent在相同测试中耗时/成本仅为几分之一 质量更高[21] - Genspark上线9天ARR突破1000万美元 用户实测其幻灯片生成能力形成碾压优势[21][22] - MainFunc创始人展示测试回放 24人团队产品在多任务场景领先OpenAI[22]