Workflow
Tesla FSD
icon
搜索文档
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
量子位· 2025-07-16 09:49
henry 发自 凹非寺 量子位 | 公众号 QbitAI 报告指出:在软件开发、数学竞赛、科学问答等任务中,agent已能完成 相当于人类花费50–200分钟才能完成的任务 ,并且这种能力还在快 速提升——大约每 2–6个月 就能 翻一番 。 在计算机操作任务中,虽然任务时长较短,但增长率与软件开发等任务一致。 Agent在自动驾驶任务的性能增长速度则较慢,约20个月翻一番。 Agent能力每7个月翻一番! 根据非营利研究机构METR最新发布的报告,这一规律已在9项基准测试中得到了验证。 这些任务涉及编程、数学、计算机使用、自动驾驶等领域,表明大模型正在不断向着高度自动化迈进。 在视频理解任务中,模型能够在 时长1小时 的视频上取得 50% 的成功率。 作为一家致力于研究前沿人工智能系统能力及其风险的研究团队,METR此次的报告又进一步拉近了AI自主化的时间线,快来和我们看看报告 有哪些内容吧。 Agent的摩尔定律 在此前的测试中,METR将评估范围聚焦于软件开发和研究类任务,并发现AI agent的能力呈现出一种"摩尔定律"式的增长趋势—— 平均每七 个月,其可完成任务的time horizon就会翻一 ...