这套题，GPT-5.5、Opus 4.7加起来没考到「1分」，人类却拿了满分100？

文章核心观点 - 在ARC-AGI-3基准测试中，当前顶尖大模型GPT-5.5和Claude Opus 4.7表现极差，得分均低于1%，揭示了它们在处理全新逻辑任务时存在根本性缺陷，其能力甚至不如6岁儿童[1][2][30] - 该测试被认为是衡量“人类智能本质”的试金石，要求模型在没有先验知识的情况下，通过抽象推理解决全新问题，而人类在此测试中能达到100%的正确率[5][8] - 模型失败的主要模式包括：无法构建完整的世界模型、被训练数据中的错误类比“绑架”、以及“通关”不等于真正理解规则[10][11][19] - 尽管总体表现相近，但两款模型的失败方式存在显著差异：Claude Opus 4.7倾向于过度自信地压缩出一个错误理论，而GPT-5.5则难以将广泛假设压缩为可执行的行动[26][27][29][30] ARC-AGI-3基准测试详解 - ARC-AGI-3是由Keras之父François Chollet创立的基准测试系列的最新版本，于今年3月发布[4] - 该测试包含135个由人类手工设计的新环境，旨在专门测试模型面对“未知”任务的能力，测试者不会获得任何玩法说明[7] - 测试环境剔除了模型通常依赖的文化知识，只保留对“抽象推理能力本身”的考察，聚焦于新颖性、模糊性、规划和适应性[8] - 该测试被认为是目前最接近“人类智能本质”的基准，其攻克标准是AI系统在首次接触所有环境时，行动效率达到或超过人类水平[5][8] 顶尖模型的失败表现与原因 - 极低的测试得分：GPT-5.5在ARC-AGI-3上的得分为0.43%，Claude Opus 4.7的得分为0.18%[1] - 失败模式一：无法构建完整的世界模型 - 模型能理解局部动作的反馈，但无法将因果效应归纳为通用的全局规则[11] - 例如，Claude Opus 4.7在任务“cd82”中，能识别出旋转和蘸取油漆的独立操作，但无法整合出“先调整方向再蘸取”的完整策略[11] - 失败模式二：被训练数据“绑架”抽象思维 - 模型会将全新的ARC任务误判为已知游戏（如“俄罗斯方块”、“打砖块”），导致行动方向被带偏[17] - 例如，GPT-5.5在任务“cd82”中思维被锚定在“填充颜色”游戏，在任务“ls20”中误判为“打砖块”逻辑[17] - 失败模式三：通关不等于理解规则 - 模型可能侥幸通过特定关卡，但并未理解底层机制，并将错误认知带入后续关卡，导致彻底崩溃[19][20][24] - 例如，Claude Opus 4.7在任务“ka59”的Level 1中因错误理解“点击”机制而通关，但在Level 2需要真正机制时完全失败[20] GPT-5.5与Claude Opus 4.7的失败差异 - Claude Opus 4.7：压缩错误的理论家 - 优势在于短周期机制发现能力强，能快速识别结构并形成一套“可运行的解释”[27] - 问题在于更容易抓住一个错误的“恒定特征”并坚定执行，形成自信但错误的理论[28][30] - 例如，在任务“cn04”中，它构建了一套关于“进度/计时/转换”的错误理论并持续尝试[28] - GPT-5.5：无法压缩的思维发散者 - 优势在于“假设生成”更广泛，更有可能说出正确的思路[29] - 问题在于难以将广泛的可能性压缩并转化为坚定的具体行动，始终在不同游戏类型假设间跳跃[29][30] - 例如，在任务“ar25”中，它识别出镜像效应，但不断在“俄罗斯方块”、“青蛙过河”等假设间反复，无法坚定执行[29] - 核心差异：根本区别在于“压缩”能力，Opus 4.7压缩成错误理论，GPT-5.5则几乎无法完成压缩[30] 对行业与AGI发展的启示 - 此次测试结果表明，即便拥有千亿级参数和巨大算力，当前最先进的模型在应对全新、需要抽象推理的逻辑环境时，能力仍然非常有限[1][2] - 模型在ARC-AGI-3上的集体低分（均低于1%）与人类100%的表现形成鲜明对比，凸显出现有AI与人类通用智能之间的巨大差距[5] - 该结果揭示了AGI（通用人工智能）发展道路依然漫长，道阻且长[30]