Workflow
预测与解释脱节
icon
搜索文档
哈佛&MIT:AI能预测,但它还解释不了“why”
36氪· 2025-10-22 08:56
研究背景与核心问题 - 哈佛与MIT的研究旨在探究大语言模型是否能构建“世界模型”,而非仅进行下一个词的预测 [1] - 实验选择轨道力学作为测试场景,因其在科学史上具有代表性,可类比于AI重演开普勒发现并测试其是否学会牛顿力学 [2] - 研究关注“预测与解释脱节”这一现代AI模型的根本性局限 [4] 实验设计与方法 - 研究使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型 [1][4] - 实验设计核心是检验模型预测行星运动时,是否会利用牛顿定律还是仅依赖“特定情境的经验法则” [4] - 后续测试还扩展到当前最先进的大语言模型以及“晶格问题”和“黑白棋”等其他场景 [9][10] 主要研究发现 - AI模型能精准预测行星轨迹,预测结果几乎完美,但其推导的受力向量杂乱无章,与牛顿定律毫无关联 [4][6] - 模型并未编码出牛顿定律的世界模型,而是依赖无法推广到其他情况的经验法则 [4][6] - 当使用新的银河系样本数据测试时,模型会编码出完全不同的另一套错误的“受力定律”,错误并不一致 [7][8] - 最先进的大语言模型同样表现出精准预测与错误解释脱节的问题,即便训练数据中已包含牛顿定律 [9] 对AI行业发展的启示 - 研究结果表明当前形态的LLM不足以实现真正的科学发现,其泛化能力仅限于“所熟悉的东西,或与所熟悉的东西相像的东西” [9][11] - AI未来发展需结合“晶化智力”(已有知识技能)与“流动智力”(经验迁移能力),而非单纯追求模型规模扩大 [12] - 行业需探索新方法(如Yann LeCun的JEPA框架)让AI掌握构建世界模型的能力,从“预测机器”进阶为能理解世界运行逻辑的“思考者” [12][14] - 科学的核心问题——精准预测与理解事物运行的“为什么”——将是AI未来需要攀登的高峰 [12][13]
AI大家说 | 哈佛&MIT:AI能预测,但它还解释不了“why”
红杉汇· 2025-10-22 08:06
实验核心发现 - 哈佛与MIT的实验表明,当前AI模型在预测行星轨迹时,虽能达到高精度,但并未编码出如牛顿定律般的“世界模型”,而是依赖特定情境的经验法则[3][8] - 模型预测的受力向量与真实的万有引力定律毫无关联,且其错误模式在不同测试样本(如不同银河系)中不一致,说明其无法构建稳定的、可推广的定律体系[10] - 该“预测与解释脱节”的缺陷在“晶格问题”和“黑白棋”等其他测试场景中同样存在,模型仅根据“下一个token可能性”对状态进行分类,而非理解底层规律[11] 实验设计与背景 - 研究选择轨道力学作为测试场景,因其在科学史上具代表性,旨在观察AI是否能重演从开普勒(经验规律)到牛顿(深层原理)的科学发现过程[4][5] - 实验使用1000万个模拟太阳系坐标序列(总计200亿个token)训练一个1.09亿参数的小型Transformer模型,以探究其预测逻辑[3][8] - 研究将AI模型统称为“基础模型”,其核心是数据驱动的“输入-预测输出”映射,与能刻画数据隐含状态结构的“世界模型”存在本质区别[6] 对AI行业发展的启示 - 研究结果并非否定AI价值,但指出以当前形态,大语言模型尚不足以实现真正的科学发现,需探索新路径[12][13] - 行业未来发展的一种思路是结合“晶化智力”(已有知识)与“流动智力”(经验迁移能力),例如通过JEPA框架等新方法进行探索[13] - 行业需共同解答的核心命题是如何让AI从“预测机器”进阶为能理解世界运行逻辑的“思考者”,这决定了AI在科学史上的最终地位[14]