你敢信？GPT-5的电脑操作水平只比人类低2%了

文章核心观点 - Agent S3在计算机使用智能体领域取得重大突破，其性能在OSWorld基准测试上达到69.9%，超出先前最佳水平10%，并接近人类水平的72% [1] - 通过引入并行扩展框架Behavior Best-of-N，实现了从单次运行到多次执行中挑选最佳结果的转变，解锁了可扩展的性能提升 [2] - 该技术进展预示着计算机使用智能体即将超越人类能力 [1] 技术方法改进 - Agent S3在Agent S2基础上构建，通过简化框架并引入原生代码智能体，将OSWorld性能提升至62.6% [2][12] - 针对CUA的高方差瓶颈，创新性地提出了Behavior Best-of-N框架，包含行为叙事生成和行为最佳选择评判两个关键组件 [7][8][9] - 移除了管理者-工作者分层结构，使解决方案更加多样，既能处理代码任务也能覆盖图形界面任务，可靠性得到提升 [12] - 上述改进共同带来13%的性能提升，使Agent S3单次运行表现达到62.6% [13] 性能表现与效率 - Agent S3 w/ bBoN在GPT-5上实现69.9%的成功率，相比单次运行提升7.3个百分点；在GPT-5 Mini上实现60.2%的成功率，提升10.4个百分点 [15] - 相比Agent S2，Behavior Best-of-N带来13.8%的成功率提升，使每个任务的LLM调用次数减少52.3%，平均任务完成时间缩短62.4% [17][18] - 当并行运行10次智能体时性能达到最高，GPT-5表现为69.9%，GPT-5 Mini表现为60.2% [19] 模型集成与多样性 - GPT-5 + Gemini 2.5 Pro组合实现66.7%的最高成功率和78.0%的任务覆盖率，表明能力互补且多样化的模型集成能获得最佳性能 [21][22] - 最具多样性的混合相比任何单模型组合取得更高任务覆盖率，证明多样性是提升成功率上限的关键 [21] - 行为叙事表示在bBoN中相比最佳基线提升3.4%，表明其有效性优于仅截图或简单描述基线 [23][24] 评估与一致性 - bBoN Judge表现优于WebJudge，且随着运行次数增加扩展性更好 [25] - 评判器在78.4%的任务上做出正确选择，复核后发现其实际在92.8%的任务上正确，表明与人类偏好具有较高一致性 [27][28][29] - OSWorld的真实性能更接近76.3%，评判器成为评估CUA任务的 promising 工具 [27][29]