StochasticGoose
搜索文档
全球顶尖大模型一夜惨遭血洗!最难测试人类拿满分,AI第一名得0.2%分
猿大侠· 2026-03-27 12:12
文章核心观点 - 新发布的AGI基准测试ARC-AGI-3揭示了当前顶尖人工智能系统与人类通用智能之间存在巨大鸿沟 人类在该测试中得分100%,而最强AI模型得分仅为0.2%,差距悬殊 [1][3][5] - 测试通过引入“效率”作为核心评分标准,从根本上挑战了当前AI依赖数据规模和计算“蛮力”的范式,暴露了其在主动探索、世界建模和元认知等关键能力上的根本性缺陷 [24][25][30][50] - 测试结果颠覆了行业对AGI进展的乐观预期,表明当前以大语言模型为代表的主流AI路径在实现真正的、类似人类的学习与推理能力方面可能面临根本性挑战 [10][35][57] ARC-AGI-3测试概述与设计理念 - ARC-AGI-3是ARC Prize基金会推出的最新一代AGI基准测试,其前身ARC-AGI-1和ARC-AGI-2已是业内知名的“魔鬼测试” [12][13] - 测试形式从静态题目转变为互动游戏,包含150多个手工设计的交互式游戏环境和1000多个关卡 每个游戏有其内在逻辑和规则,但没有任何说明文档或自然语言提示 [17][19] - 测试旨在评估智能体四个核心能力:通过互动探索获取信息、将观察凝聚成可预测未来的世界模型、自主判断目标、以及规划与执行并修正行动路径 [23] - 评分标准具有革命性,首次引入与人类对比的“效率”评分 公式为(人类步数/AI步数)²,旨在衡量信息获取和转化为正确行动的效率,彻底堵死了依靠“穷举”和“试错”的路径 [25][26][28][30][32] 测试结果与性能对比 - 人类表现卓越:超过1200名人类玩家完成了3900多场游戏,基线得分设为100%,许多人能轻松达到理论最优步数 [38][39] - 顶尖AI模型集体溃败:包括最强的Opus 4.6在内的前沿大模型得分普遍低于1% Opus 4.6得分仅为0.2%,与其在上一代测试中69.2%的高分形成鲜明对比 [3][5][39] - Opus 4.6的0.2%得分意味着:假设人类用10步解决游戏,AI需要大约224步,效率极低 [33] - 非LLM方案表现相对领先:30天开发者预览期的冠军“StochasticGoose”是一个基于卷积神经网络(CNN)的智能体,得分12.58% 排行榜前三名均为非大语言模型方案,包括CNN、基于规则的状态图探索和无需训练的帧图搜索 [41][43] - 接入前沿大模型的智能体表现不佳:一些接入大模型的智能体成绩垫底,得分仅为个位数百分比,甚至频繁崩溃 [43][44] AI失败模式与能力缺陷分析 - 主要失败模式是“错误的世界模型假设”:AI进入新环境后,会基于初始视觉信息迅速“脑补”一个错误的游戏框架,并沿着错误假设持续执行,缺乏修正能力 [45][46][48] - 缺乏“元认知”能力:AI无法意识到自己的假设可能是错的,即“不知道自己不知道”,因此不会在缺乏正反馈时停下来重新评估 [50] - “知识诅咒”现象:参数量越大、预训练知识越丰富的模型,越容易将陌生环境错误类比为已见过的事物,导致表现反而更差 轻量级方案因没有“先入为主”的包袱而表现更好 [51] - 与人类学习模式的本质差异:人类学习是在线、交互、假设驱动的“探索-建模-验证-修正”循环 而当前AI的学习是离线、数据驱动、模式匹配的,无法应对ARC-AGI-3这种没有“题海”可覆盖、考察“如何学习”的测试 [53][56][57][58][59] - 具体案例:预览期冠军智能体在一款调水位游戏中,开局就花了近350步进行无效点击,而人类仅需两三下即可理解 [42] 行业影响与未来展望 - 测试结果对“AGI近在眼前”的行业乐观论调提出了强烈质疑,促使业界重新评估AI发展的现状与真正瓶颈 [10][35] - 测试设立了高达85万美元的奖金池,其中70万美元用于奖励“满分通关者” 参赛要求完全开源代码且在无网络环境下评估,确保了测试的公平性与可复现性,旨在推动解决根本性问题 [61] - 该测试为AI行业,特别是通用人工智能(AGI)研发领域,设立了一个清晰且极高的能力标杆,指明了当前技术路径与目标之间的巨大差距 [4][63]