这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?
机器之心·2026-05-02 13:34

文章核心观点 - 在ARC-AGI-3基准测试中,当前顶尖大模型GPT-5.5和Claude Opus 4.7表现极差,得分均低于1%,揭示了它们在处理全新逻辑任务时存在根本性缺陷,其能力甚至不如6岁儿童[1][2][30] - 该测试被认为是衡量“人类智能本质”的试金石,要求模型在没有先验知识的情况下,通过抽象推理解决全新问题,而人类在此测试中能达到100%的正确率[5][8] - 模型失败的主要模式包括:无法构建完整的世界模型、被训练数据中的错误类比“绑架”、以及“通关”不等于真正理解规则[10][11][19] - 尽管总体表现相近,但两款模型的失败方式存在显著差异:Claude Opus 4.7倾向于过度自信地压缩出一个错误理论,而GPT-5.5则难以将广泛假设压缩为可执行的行动[26][27][29][30] ARC-AGI-3基准测试详解 - ARC-AGI-3是由Keras之父François Chollet创立的基准测试系列的最新版本,于今年3月发布[4] - 该测试包含135个由人类手工设计的新环境,旨在专门测试模型面对“未知”任务的能力,测试者不会获得任何玩法说明[7] - 测试环境剔除了模型通常依赖的文化知识,只保留对“抽象推理能力本身”的考察,聚焦于新颖性、模糊性、规划和适应性[8] - 该测试被认为是目前最接近“人类智能本质”的基准,其攻克标准是AI系统在首次接触所有环境时,行动效率达到或超过人类水平[5][8] 顶尖模型的失败表现与原因 - 极低的测试得分:GPT-5.5在ARC-AGI-3上的得分为0.43%,Claude Opus 4.7的得分为0.18%[1] - 失败模式一:无法构建完整的世界模型 - 模型能理解局部动作的反馈,但无法将因果效应归纳为通用的全局规则[11] - 例如,Claude Opus 4.7在任务“cd82”中,能识别出旋转和蘸取油漆的独立操作,但无法整合出“先调整方向再蘸取”的完整策略[11] - 失败模式二:被训练数据“绑架”抽象思维 - 模型会将全新的ARC任务误判为已知游戏(如“俄罗斯方块”、“打砖块”),导致行动方向被带偏[17] - 例如,GPT-5.5在任务“cd82”中思维被锚定在“填充颜色”游戏,在任务“ls20”中误判为“打砖块”逻辑[17] - 失败模式三:通关不等于理解规则 - 模型可能侥幸通过特定关卡,但并未理解底层机制,并将错误认知带入后续关卡,导致彻底崩溃[19][20][24] - 例如,Claude Opus 4.7在任务“ka59”的Level 1中因错误理解“点击”机制而通关,但在Level 2需要真正机制时完全失败[20] GPT-5.5与Claude Opus 4.7的失败差异 - Claude Opus 4.7:压缩错误的理论家 - 优势在于短周期机制发现能力强,能快速识别结构并形成一套“可运行的解释”[27] - 问题在于更容易抓住一个错误的“恒定特征”并坚定执行,形成自信但错误的理论[28][30] - 例如,在任务“cn04”中,它构建了一套关于“进度/计时/转换”的错误理论并持续尝试[28] - GPT-5.5:无法压缩的思维发散者 - 优势在于“假设生成”更广泛,更有可能说出正确的思路[29] - 问题在于难以将广泛的可能性压缩并转化为坚定的具体行动,始终在不同游戏类型假设间跳跃[29][30] - 例如,在任务“ar25”中,它识别出镜像效应,但不断在“俄罗斯方块”、“青蛙过河”等假设间反复,无法坚定执行[29] - 核心差异:根本区别在于“压缩”能力,Opus 4.7压缩成错误理论,GPT-5.5则几乎无法完成压缩[30] 对行业与AGI发展的启示 - 此次测试结果表明,即便拥有千亿级参数和巨大算力,当前最先进的模型在应对全新、需要抽象推理的逻辑环境时,能力仍然非常有限[1][2] - 模型在ARC-AGI-3上的集体低分(均低于1%)与人类100%的表现形成鲜明对比,凸显出现有AI与人类通用智能之间的巨大差距[5] - 该结果揭示了AGI(通用人工智能)发展道路依然漫长,道阻且长[30]

这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100? - Reportify