Workflow
WWDC前夕,苹果论文“炮轰”AI推理模型“假思考”,测试方法遭质疑

苹果机器学习研究中心论文核心观点 - 论文认为现有推理模型的"思考"能力是一种"幻象",缺乏稳定可理解的思维过程 [1][4] - 指出OpenAI、Anthropic、谷歌和DeepSeek等公司推出的链式思考(CoT)模型声称接近"类人思维"存在争议 [4] - 批评当前评估方法存在数据污染风险,缺乏对思考过程质量的量化分析 [4] 实验设计与发现 - 设计四类谜题环境(汉诺塔/跳棋交换/过河问题/积木世界)测试模型推理能力 [4] - 低复杂度任务中非推理模型更准确高效,中等复杂度时推理模型显现优势 [6] - 问题难度超过临界点后两类模型准确率均降为零,显示未突破能力瓶颈 [6][7] - 发现模型存在"缩放限制"现象:难度超限时即便有充足计算预算也会减少思考投入 [9] 推理过程异常现象 - 简单问题中模型过早找到正确答案却继续无效思考 [10] - 中等复杂度问题存在路径偏差,后期才修正答案 [11] - 高复杂度任务中推理痕迹变得混乱不连贯 [11] - 汉诺塔测试中即使提供完整解题算法,模型表现仍无改善 [11] 行业争议与反驳 - 研究者指出实验失败源于输出token限制而非推理能力缺陷 [12] - 观点认为存在复杂度阈值不等于否定全部推理能力 [12] - 批评声音认为苹果聚焦记录局限性缺乏建设性 [12] - 行业观察者质疑苹果因AI进展滞后而贬低竞争对手 [13] 苹果AI发展背景 - WWDC 2025前夕被曝AI进展有限,Siri升级可能继续延期 [14] - 去年宣布的Siri重构未见实质性推进 [15] - 内部消息透露进展受阻与组织协作问题、隐私政策限制有关 [15]