大语言模型的技术路径争议 - 强化学习之父Rich Sutton认为大语言模型是死胡同,不符合《苦涩的教训》精神,因其无法从持续实际互动中学习[1][3] - Sutton主张智能应来自强化学习与环境的持续交互,奖励函数包含内在动机如好奇心,学习应是默认持续过程而非一次性训练[3] - 当前大语言模型依赖大规模预训练和人为监督微调,Sutton指出监督微调在自然界不存在,预训练方法被人类偏见污染[3] 强化学习实现的根本挑战 - 纯粹强化学习极难实现,因无法定义通用奖励函数,实践常退回模仿学习[7] - 理想系统应像松鼠被置于新环境后自主学习,而当前系统无法在未见过的场景中学习新事物[8] - 强化学习应是利用与探索的结合,但当前模型设计走向极端,仅在有限经验基础上进行纯粹利用[11] 大语言模型的设计缺陷与数据问题 - 模型依赖写作数据而非思维模式数据,但写作时的思考方式与现实世界不同,导致数据采样分布偏差[12] - 自回归机制更像神经网络的顺序展开路径,而非可随时间微调的目标函数,限制真正理解能力[11] - 模型缺乏强制探索行动与结果关系的机制,难以构建良好世界模型,仅在明确行动空间如围棋中表现较好[20] 技术路径的可行性质疑 - Sutton指出大语言模型的极端主张缺乏非凡证据,仅通过观察人类行为样本难以涌现真正推理能力[23] - 大语言模型可能无法兑现宏伟愿景,若15年内未实现价值,考虑到数百上千亿美元投入,可能引发市场崩溃或泡沫破裂[23] - 模型过度依赖人类知识和互联网数据,存在可扩展性边界,终将陷入过度依赖专家微调的困境[24] 行业发展的路径依赖与重构需求 - 行业陷入修补式迭代恶性循环,工程师优先修复而非系统重构,导致系统日益脆弱和过拟合[28] - 当模型遇到瓶颈时,市场商业化浪潮绑架既定路径,直到集体意识必须重构新系统[28] - 大语言模型领域已显现转变,从单纯依赖算力扩展正转向更注重推理能力的方法链和强化学习环境探索[28] 模型实际能力与公众期望的错位 - 需要区分模型被认为能做的事和实际能做的事,公众推断可能误导,但模型现有能力本身具有难以置信的价值和用途[32][33] - 纯粹模仿已产生非凡特性和涌现能力,这是重要学术问题,尽管不会达到真正智能,仍能找到很好用途[34] - 公共讨论应聚焦已发生的奇迹,而非过度期待智能水平,类似互联网泡沫期某些公司的期望过头现象[33][34]
Sutton判定「LLM是死胡同」后,新访谈揭示AI困境
机器之心·2025-10-15 15:33