文章核心观点 - Agent S3在计算机使用智能体领域取得重大突破,其性能在OSWorld基准测试上达到69.9%,超出先前最佳水平10%,并接近人类水平的72% [1] - 通过引入并行扩展框架Behavior Best-of-N,实现了从单次运行到多次执行中挑选最佳结果的转变,解锁了可扩展的性能提升 [2] - 该技术进展预示着计算机使用智能体即将超越人类能力 [1] 技术方法改进 - Agent S3在Agent S2基础上构建,通过简化框架并引入原生代码智能体,将OSWorld性能提升至62.6% [2][12] - 针对CUA的高方差瓶颈,创新性地提出了Behavior Best-of-N框架,包含行为叙事生成和行为最佳选择评判两个关键组件 [7][8][9] - 移除了管理者-工作者分层结构,使解决方案更加多样,既能处理代码任务也能覆盖图形界面任务,可靠性得到提升 [12] - 上述改进共同带来13%的性能提升,使Agent S3单次运行表现达到62.6% [13] 性能表现与效率 - Agent S3 w/ bBoN在GPT-5上实现69.9%的成功率,相比单次运行提升7.3个百分点;在GPT-5 Mini上实现60.2%的成功率,提升10.4个百分点 [15] - 相比Agent S2,Behavior Best-of-N带来13.8%的成功率提升,使每个任务的LLM调用次数减少52.3%,平均任务完成时间缩短62.4% [17][18] - 当并行运行10次智能体时性能达到最高,GPT-5表现为69.9%,GPT-5 Mini表现为60.2% [19] 模型集成与多样性 - GPT-5 + Gemini 2.5 Pro组合实现66.7%的最高成功率和78.0%的任务覆盖率,表明能力互补且多样化的模型集成能获得最佳性能 [21][22] - 最具多样性的混合相比任何单模型组合取得更高任务覆盖率,证明多样性是提升成功率上限的关键 [21] - 行为叙事表示在bBoN中相比最佳基线提升3.4%,表明其有效性优于仅截图或简单描述基线 [23][24] 评估与一致性 - bBoN Judge表现优于WebJudge,且随着运行次数增加扩展性更好 [25] - 评判器在78.4%的任务上做出正确选择,复核后发现其实际在92.8%的任务上正确,表明与人类偏好具有较高一致性 [27][28][29] - OSWorld的真实性能更接近76.3%,评判器成为评估CUA任务的 promising 工具 [27][29]
你敢信?GPT-5的电脑操作水平只比人类低2%了
机器之心·2025-10-04 11:38