波将金式理解

搜索文档
Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
机器之心· 2025-06-29 12:23
论文核心观点 - 大型语言模型(LLM)存在"波将金式理解"现象,即模型能正确定义概念但在实际应用中频繁出现自相矛盾的错误,揭示其概念表征存在深层次内在不一致性[2][3][17] - 这种现象普遍存在于各类主流模型中,包括GPT-4o、Claude-3.5、Gemini-2.0等,波将金率总体达到55%(分类)、40%(生成)、40%(编辑)[32][33] - 研究通过两种互补方法验证:基于三大领域(文学技巧/博弈论/心理偏差)的基准测试和自动化评估程序,结果显示模型内部存在对同一概念的冲突表征[28][36][39] 研究框架 - 提出形式化理论框架:将概念理解定义为函数f:X→{0,1},人类正确解释为f*,误解集合为F_h[21][22] - 引入"基石集"概念:最小实例集S⊆X,通过有限示例测试即可判定是否真正理解概念[24][25] - 基准测试有效性前提:LLM的误解方式需与人类相似,否则高分仅反映"波将金式理解"[17] 实证方法 - 基准测试覆盖32个概念/3159条标注数据,测量模型在定义正确后分类/生成/编辑任务的错误率[28][29] - 自动化程序检测内部不一致性:让模型评估自身生成的实例,结果显示不一致得分范围0.02-0.64[37][39] - 测试模型包括7个主流LLM:Llama-3.3正确率57%/43%/36%,GPT-4o为53%/38%/35%,Qwen2-VL表现最差达66%/62%/52%[32] 行业影响 - 模型定义准确率94.2%,但应用时表现断崖式下跌,证明传统基准测试存在局限性[33] - DeepMind科学家测试显示Gemini 2.5 Pro能正确处理论文案例,但需验证完整测试集表现[12] - 争议点:部分观点认为LLM无需真正理解,只需表现持续改进即可满足需求[11]