Workflow
AI推理能力
icon
搜索文档
反转,AI推理能力遭苹果质疑后,Claude合著论文反击:不是不会推理,是输给Token
36氪· 2025-06-17 15:52
苹果论文《思考的幻觉》核心观点 - 苹果机器学习研究团队发布53页技术报告,质疑主流大语言模型(LLM)的推理能力,认为其未从训练数据中学习可泛化的第一性原理 [2][4] - 研究通过汉诺塔、积木世界、过河问题和跳棋四类经典问题测试模型,发现随着难度指数级增加,顶尖模型(如Claude 3.7 Sonnet、DeepSeek-R1)准确率直线下滑至归零 [4][6] - 模型在复杂任务中输出的"思维链"token数量缩水,被解读为主动减少推理尝试的迹象,苹果认为"推理是幻象" [8] 对主流模型的批判性结论 - 社交媒体观点认为Claude、DeepSeek等模型仅是"记性好的复读机",不具备真正推理能力 [10] - 测试显示"思维模型"(如Claude 3.7 Sonnet with thinking)与非思维对应模型在准确率上无显著差异 [8] 反驳论文《The Illusion of The Illusion of Thinking》核心论点 - 独立研究员Alex Lawsen与Claude Opus 4合著论文,指出苹果实验设计存在三大缺陷 [12][13] - 槽点一:模型因上下文窗口和输出Token限制导致答案截断,误判为推理失败(如15盘汉诺塔需32000步骤,超出输出上限) [14][15][16][17][18] - 槽点二:苹果测试题库包含数学上无解的"过河问题",却仍以此评分作为模型失败证据 [19][20][21][22] - 槽点三:改变输出要求(如生成程序代码而非逐步解答)后,模型在复杂任务中表现显著提升 [23][24][25] 实验方法论争议 - 批评者指出苹果未设置人类基准对比,忽略人类在同等复杂任务中同样可能"宕机",无法证明AI缺陷具有特殊性 [26][27]