强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位·2025-06-10 10:23
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 大模型目前的主导地位只是暂时的,在未来五年甚至十年内都不会是技术前沿。 这是新晋图灵奖得主、强化学习之父Richard Sutton对未来的最新预测。 就在刚刚的新加坡国立大学建校120周年 (NUS120) 之际,Sutton受邀发表演讲——塑造AI和强化学习的未来。 其实,这已经不是Sutton第一次在公开场合表达类似的观点,早在他19年的著作《痛苦的教训》中,他就明确提出: 让AI尤其是LLM模仿人类思维方式,只能带来短期的性能提升,长期看只会阻碍研究的持续进步。 在他4月份新发表的论文《欢迎来到体验时代》也再度强调了这点,同时他表示,扩展计算才是正解。 本次NUS120演讲长达一个多小时,可谓是干货满满、信息量超大。 让我们一起来看看完整演讲内容。 LLM主导是暂时的 Sutton首先提及当前人类处于数据时代,像ChatGPT这类大语言模型,都是靠分析人类产生的大量数据 (如文本、图像、视频) 进行训 练。 但始终追逐人类思维方式,至多也只能达到 "人类水平" 。 在数学、科学等领域,人类数据里的知识已经接近极限,AI难以突破现有认知,纯靠模仿已经 ...