哈佛&MIT：AI能预测，但它还解释不了“why”

研究背景与核心问题 - 哈佛与MIT的研究旨在探究大语言模型是否能构建“世界模型”，而非仅进行下一个词的预测 [1] - 实验选择轨道力学作为测试场景，因其在科学史上具有代表性，可类比于AI重演开普勒发现并测试其是否学会牛顿力学 [2] - 研究关注“预测与解释脱节”这一现代AI模型的根本性局限 [4] 实验设计与方法 - 研究使用1000万个模拟太阳系坐标序列（总计200亿个token）训练一个1.09亿参数的小型Transformer模型 [1][4] - 实验设计核心是检验模型预测行星运动时，是否会利用牛顿定律还是仅依赖“特定情境的经验法则” [4] - 后续测试还扩展到当前最先进的大语言模型以及“晶格问题”和“黑白棋”等其他场景 [9][10] 主要研究发现 - AI模型能精准预测行星轨迹，预测结果几乎完美，但其推导的受力向量杂乱无章，与牛顿定律毫无关联 [4][6] - 模型并未编码出牛顿定律的世界模型，而是依赖无法推广到其他情况的经验法则 [4][6] - 当使用新的银河系样本数据测试时，模型会编码出完全不同的另一套错误的“受力定律”，错误并不一致 [7][8] - 最先进的大语言模型同样表现出精准预测与错误解释脱节的问题，即便训练数据中已包含牛顿定律 [9] 对AI行业发展的启示 - 研究结果表明当前形态的LLM不足以实现真正的科学发现，其泛化能力仅限于“所熟悉的东西，或与所熟悉的东西相像的东西” [9][11] - AI未来发展需结合“晶化智力”（已有知识技能）与“流动智力”（经验迁移能力），而非单纯追求模型规模扩大 [12] - 行业需探索新方法（如Yann LeCun的JEPA框架）让AI掌握构建世界模型的能力，从“预测机器”进阶为能理解世界运行逻辑的“思考者” [12][14] - 科学的核心问题——精准预测与理解事物运行的“为什么”——将是AI未来需要攀登的高峰 [12][13]