“推理模型还处于RNN的阶段”——李建忠对话GPT-5与Transformer发明者Lukasz Kaiser实录

对话一：语言对于智能到底意味着什么 - 语言在时间维度上对智能至关重要，语言模型本质是序列模型，处理时间序列是表达智能的重要组成部分 [6][7] - 语言经过人类编码压缩，在智能表征上比视觉更高效，语言边界就是世界边界 [7] - 训练语言数据非常方便，互联网有海量语言数据，用语言训练比用视频便宜得多 [8] - 语言模型会形成抽象概念，当用多种语言训练时，模型在抽象空间解决问题然后表达出来 [9] - 模型概念与人类概念可能存在差异，特别是在与物理世界紧密相关的领域 [10] 对话二：多模态与世界模型的挑战 - 现代大语言模型如GPT-4已经是多模态模型，能接收和生成图像音频，但模态间迁移水平不尽如人意 [12] - 当前多模态处理通过VQ-VAE编码器，感觉不令人满意，需要更深入融合到模型中 [13] - 语言对多模态非常重要，离开语言视觉只是像素信号，语言赋予视觉对象语义含义 [14] - 现代大语言模型在某种程度上就是世界模型，文本数学方面表现优异，但作为物理模型表现不如语言模型 [14] - 通过架构改进、更好数据将弥合世界模型与语言模型差距，Sora等模型显示正在取得重大进展 [15] 对话三：AI编程：自然语言是终极目标，还是新的"巴别塔" - Transformer发明时已考虑自动化编程，认为比处理任意对话更容易 [17] - 语言模型将覆盖大量编程工作，但数学和编程语言是比纯自然语言更好的沟通工具 [19] - 未来复杂系统级软件需要专业程序员使用Copilot模式，应用软件可由大众用户自然语言编程完成 [20] - 编程重点在于沟通和抽象，不一定需要新编程语言，可以使用现有语言但要用得非常好 [20] - 新编程语言需求来自新计算架构，而非AI编程需求 [20] 对话四：Agent的泛化困境：是方法问题，还是根本限制 - Agentic Model缺乏坚实技术实体，指推理过程中调用外部工具的推理模型 [21] - 问题在于使用未经训练工具时缺乏学习信号，效果不好 [22] - 强化学习可泛化到更大系统，但需要训练期间接触所有工具，目前难以实现 [22] - 需要更多工作让系统可训练，即使没有太多训练也可能非常有用 [23] 对话五：算力与算法：Scaling Law是信仰还是路径依赖 - 预训练Scaling Law和强化学习Scaling Law不完全是一回事，有不同限制 [25] - 预训练Scaling Law存在经济限制，离经济极限不远，可将大模型蒸馏成更小模型 [25] - 推理模型不增加参数数量，让模型运行更长时间会变得更好，但有架构限制 [27] - 推理Scaling Law与预训练Scaling Law有非常不同限制，呼唤新研究和不同架构 [28] 对话六：具身智能的挑战：是数据问题？还是比特和原子的根本性差异 - 具身智能将更接近当前LLM，物理世界数据比互联网少，但数据效率在提高 [29] - 需要从多模态模型开始，加入RL训练，允许模型在行动前进行推理 [30] - 现实障碍是推理速度太慢，需要层级式架构输出动作 [30] - 第一个版本建立在现有成果上做调整，之后会有新一代更高效模型 [31] 对话七：强化学习：是超级优化器，还是科学发现的引擎 - 推理模型看作新架构，有思维链推理过程，用强化学习方式可行 [32] - RL数据效率高得多，可从有限数据中学习，如1000道数学题 [33] - RL只得到一个奖励，没有约束，能很好优化就可以学习 [33] - 处于范式早期阶段，需要尝试发现改进才能更高效 [34] 对话八：AI的组织跃迁：如何实现大规模Agent协作 - 最大挑战是开发下一代推理模型，需要Transformer创新级别的推理模型 [35] - 需要更多并行性，不能等模型思考一周才得到奖励 [36] - 需要为并行过程提供更多信号，结合架构融入并行过程 [36] 对话九：AI记忆的瓶颈：模型离真正的"原生记忆"还有多远 - 推理模型可使用工具访问记忆，通过RL训练会学得很好 [37] - 工具方式解决记忆问题对于大多数情况足够好，模型能区分互联网记忆和自己记忆 [37] - 未来架构可能做得更好，但目前有可行解决方案 [38] 对话十：大模型如何摆脱瞬时学习，而像人类一样持续学习 - 利用上下文作为持续学习记忆是进展，但效率不高 [39] - 记忆工具正在出现，模型在推理中访问记忆 [40] - LoRA模块等经济方式修改权重已更可行，每个人可微调自己模型 [40] - 需要更优雅方式实现持续学习，涉及实践和研究考量 [41]