StochasticGoose - 财报，业绩电话会，研报，新闻

StochasticGoose

搜索文档

猿大侠· 2026-03-27 12:12

文章核心观点 - 新发布的AGI基准测试ARC-AGI-3揭示了当前顶尖人工智能系统与人类通用智能之间存在巨大鸿沟人类在该测试中得分100%，而最强AI模型得分仅为0.2%，差距悬殊 [1][3][5] - 测试通过引入“效率”作为核心评分标准，从根本上挑战了当前AI依赖数据规模和计算“蛮力”的范式，暴露了其在主动探索、世界建模和元认知等关键能力上的根本性缺陷 [24][25][30][50] - 测试结果颠覆了行业对AGI进展的乐观预期，表明当前以大语言模型为代表的主流AI路径在实现真正的、类似人类的学习与推理能力方面可能面临根本性挑战 [10][35][57] ARC-AGI-3测试概述与设计理念 - ARC-AGI-3是ARC Prize基金会推出的最新一代AGI基准测试，其前身ARC-AGI-1和ARC-AGI-2已是业内知名的“魔鬼测试” [12][13] - 测试形式从静态题目转变为互动游戏，包含150多个手工设计的交互式游戏环境和1000多个关卡每个游戏有其内在逻辑和规则，但没有任何说明文档或自然语言提示 [17][19] - 测试旨在评估智能体四个核心能力：通过互动探索获取信息、将观察凝聚成可预测未来的世界模型、自主判断目标、以及规划与执行并修正行动路径 [23] - 评分标准具有革命性，首次引入与人类对比的“效率”评分公式为(人类步数/AI步数)²，旨在衡量信息获取和转化为正确行动的效率，彻底堵死了依靠“穷举”和“试错”的路径 [25][26][28][30][32] 测试结果与性能对比 - 人类表现卓越：超过1200名人类玩家完成了3900多场游戏，基线得分设为100%，许多人能轻松达到理论最优步数 [38][39] - 顶尖AI模型集体溃败：包括最强的Opus 4.6在内的前沿大模型得分普遍低于1% Opus 4.6得分仅为0.2%，与其在上一代测试中69.2%的高分形成鲜明对比 [3][5][39] - Opus 4.6的0.2%得分意味着：假设人类用10步解决游戏，AI需要大约224步，效率极低 [33] - 非LLM方案表现相对领先：30天开发者预览期的冠军“StochasticGoose”是一个基于卷积神经网络(CNN)的智能体，得分12.58% 排行榜前三名均为非大语言模型方案，包括CNN、基于规则的状态图探索和无需训练的帧图搜索 [41][43] - 接入前沿大模型的智能体表现不佳：一些接入大模型的智能体成绩垫底，得分仅为个位数百分比，甚至频繁崩溃 [43][44] AI失败模式与能力缺陷分析 - 主要失败模式是“错误的世界模型假设”：AI进入新环境后，会基于初始视觉信息迅速“脑补”一个错误的游戏框架，并沿着错误假设持续执行，缺乏修正能力 [45][46][48] - 缺乏“元认知”能力：AI无法意识到自己的假设可能是错的，即“不知道自己不知道”，因此不会在缺乏正反馈时停下来重新评估 [50] - “知识诅咒”现象：参数量越大、预训练知识越丰富的模型，越容易将陌生环境错误类比为已见过的事物，导致表现反而更差轻量级方案因没有“先入为主”的包袱而表现更好 [51] - 与人类学习模式的本质差异：人类学习是在线、交互、假设驱动的“探索-建模-验证-修正”循环而当前AI的学习是离线、数据驱动、模式匹配的，无法应对ARC-AGI-3这种没有“题海”可覆盖、考察“如何学习”的测试 [53][56][57][58][59] - 具体案例：预览期冠军智能体在一款调水位游戏中，开局就花了近350步进行无效点击，而人类仅需两三下即可理解 [42] 行业影响与未来展望 - 测试结果对“AGI近在眼前”的行业乐观论调提出了强烈质疑，促使业界重新评估AI发展的现状与真正瓶颈 [10][35] - 测试设立了高达85万美元的奖金池，其中70万美元用于奖励“满分通关者” 参赛要求完全开源代码且在无网络环境下评估，确保了测试的公平性与可复现性，旨在推动解决根本性问题 [61] - 该测试为AI行业，特别是通用人工智能(AGI)研发领域，设立了一个清晰且极高的能力标杆，指明了当前技术路径与目标之间的巨大差距 [4][63]