7个月翻一番！AI agent能力飙升，METR报告揭示指数级进化规律

Agent能力增长规律 - Agent能力呈现"摩尔定律"式增长，平均每7个月其可完成任务的time horizon翻一番[7] - 在软件开发、数学竞赛等任务中，Agent能力每2-6个月翻一番，能完成人类需50-200分钟的任务[3] - 自动驾驶领域增长较慢，约20个月翻一番[5] - 前沿模型如o3在9个基准测试中翻倍时间中位数为4个月（范围2.5-17个月）[14] Time Horizon定义与意义 - Time horizon指Agent在任务上可稳定完成的时间跨度，越长代表智能水平越高[8] - 人类平均花30分钟完成的任务，若AI成功率超50%则time horizon为30分钟[7] - 视频理解任务中，模型在1小时视频上成功率可达50%[6] 跨领域基准测试 - 研究覆盖9个领域：软件开发、计算机使用、数学竞赛、编程竞赛、科学问答、视频理解、自动驾驶、机器人仿真[9] - 计算机操作任务（如OSWorld、WebArena）time horizon仅约2分钟，可能因鼠标误触导致[15] - 不同基准测试time horizon边界相差超100倍[15] 任务难度差异 - LeetCode（LiveCodeBench）和数学问题（AIME）难度远高于简单问题[17] - 长视频（Video-MME）问题难度与短视频差异不大[17] - Agent性能提升体现在处理更长、更复杂任务的能力[20] 未来趋势 - Agent可处理范围从秒级向小时级跨越，未来可能完成"几天→几周"任务[20] - 所有测试领域均未显示智能增长乏力迹象[20]