强化学习之父：LLM主导只是暂时，扩展计算才是正解

大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练但模仿人类思维只能达到人类水平上限难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域当前LLM技术成熟度可能限制创新空间[31]