Workflow
体验时代
icon
搜索文档
强化学习之父:LLM主导只是暂时,扩展计算才是正解
量子位· 2025-06-10 10:23
大模型技术前景 - 当前大语言模型(LLM)主导地位是暂时的 未来5-10年将不再是技术前沿[1][4] - LLM依赖人类数据训练 但模仿人类思维只能达到人类水平上限 难以突破现有认知边界[9][10][11] - 静态数据集存在局限性 AI需要从第一人称交互中获取动态"体验数据"实现自我迭代[13][14][15] 强化学习与体验时代 - 强化学习之父Richard Sutton提出AI将进入"体验时代" 通过Agent与环境互动产生更高级数据[14][18] - AlphaGo第37手非常规走法证明体验学习能突破人类认知局限[14] - 持续学习算法+大规模算力扩展是强化学习发挥潜力的关键[20][22][23] Agent去中心化发展 - 不同目标Agent可通过去中心化合作实现互利共赢 类似人类社会经济运转模式[24] - 集中控制AI的主张源于恐惧 多样性目标与合作秩序更能释放AI潜力[25][26] - 未来AI将具备自主设计能力 人类角色转变为设计催化剂[29] 行业技术争议 - 技术社区对LLM发展存在分歧 部分观点认为LLM已接近领域天花板[31] - 技术突破常来自未知领域 当前LLM技术成熟度可能限制创新空间[31]