7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
量子位·2025-07-16 09:49
Agent能力增长规律 - Agent能力呈现"摩尔定律"式增长,平均每7个月其可完成任务的time horizon翻一番[7] - 在软件开发、数学竞赛等任务中,Agent能力每2-6个月翻一番,能完成人类需50-200分钟的任务[3] - 自动驾驶领域增长较慢,约20个月翻一番[5] - 前沿模型如o3在9个基准测试中翻倍时间中位数为4个月(范围2.5-17个月)[14] Time Horizon定义与意义 - Time horizon指Agent在任务上可稳定完成的时间跨度,越长代表智能水平越高[8] - 人类平均花30分钟完成的任务,若AI成功率超50%则time horizon为30分钟[7] - 视频理解任务中,模型在1小时视频上成功率可达50%[6] 跨领域基准测试 - 研究覆盖9个领域:软件开发、计算机使用、数学竞赛、编程竞赛、科学问答、视频理解、自动驾驶、机器人仿真[9] - 计算机操作任务(如OSWorld、WebArena)time horizon仅约2分钟,可能因鼠标误触导致[15] - 不同基准测试time horizon边界相差超100倍[15] 任务难度差异 - LeetCode(LiveCodeBench)和数学问题(AIME)难度远高于简单问题[17] - 长视频(Video-MME)问题难度与短视频差异不大[17] - Agent性能提升体现在处理更长、更复杂任务的能力[20] 未来趋势 - Agent可处理范围从秒级向小时级跨越,未来可能完成"几天→几周"任务[20] - 所有测试领域均未显示智能增长乏力迹象[20]