《大模型的第一性思考》李建忠对话GPT5与Transformer发明者Lukasz Kaiser实录

对话一：语言对于智能到底意味着什么？ - 语言模型在智能构建中扮演核心角色，其成功源于对语言在智能中核心作用的认知，ChatGPT和Transformer的成功均得益于此[6][9] - 语言具备时间维度，总是在生成下一个词，而序列模型（如Transformer）可处理包括语言、蛋白质、音频在内的各种序列，时间序列是表达智能的重要组成部分[7] - 语言训练具有实践优势，互联网上海量的语言数据使得训练非常方便且成本远低于视频训练[9] - 语言模型确实会形成独立于语言的抽象概念，例如在解决数学问题时，尽管用不同语言生成答案，但解题方式和错误类型相同，表明模型在抽象空间进行思考[10] - 然而，未经过大量多模态数据训练的模型，其概念（如"痛苦"或"爱"）可能与人类植根于物理世界的真实感受有所不同[11] 对话二：多模态与世界模型的挑战 - 现代大语言模型（如GPT-4）已是多模态模型，能接收和生成图像、音频，并已取得巨大进展，例如ChatGPT的语音模式可以对话、唱歌[12] - 当前多模态处理方式（如通过VQ-VAE将图像/音频编码为特殊代码）有效但不令人满意，未来需要更深入地将多模态融合到模型中，使编码更具可训练性并与语言有更多交互[13] - 语言对于为视觉对象赋予语义含义至关重要，否定语言价值的视觉派研究可能重蹈ChatGPT发布前的错误路线[14] - 现代大语言模型在某种程度上已是世界模型，在文本和数学方面表现卓越，但作为物理模型的表现不如语言模型，部分原因是视频训练数据不足、质量不佳及当前架构限制[14] - 通过改进架构、损失函数并增加更好更多的数据，结合像Sora、Genie和Veo这类从视频学习的模型，正在弥合"世界模型"与"语言模型"之间的差距[15] 对话三：AI编程：自然语言是终极目标，还是新的"巴别塔"？ - Transformer架构的创造者在早期就已预见其在自动化编程方面的应用潜力[17] - 未来语言模型将能覆盖大量编程工作，但数学符号和编程语言作为沟通工具，在解释复杂概念时比纯自然语言更高效，因此专业程序员仍需掌握这些概念以实现与模型的快速、高效沟通[18] - 编程的重点在于沟通和抽象，而非特定语言，AI有望帮助更好地使用现有编程语言来改进系统，而非必然需要创造新的为AI设计的编程语言[19] - 新的编程语言需求将来自新的计算硬件架构，而非AI编程本身[20] 对话四：Agent的泛化困境：是方法问题，还是根本限制？ - 所谓的"智能体模型"通常指在其推理过程中能调用外部工具（如代码解释器、网络搜索）的推理模型，这些模型使用强化学习训练且效果良好[21] - Agent泛化问题的主要挑战在于缺乏学习信号，当模型使用未经训练的工具时，没有像强化学习训练那样的反馈机制来检查答案正确性[22] - 要实现出色的多智能体系统，需要能够模拟整个环境进行训练，而这在当前难以实现，但即使没有大量训练，聪明的模型也能零样本完成许多任务[23] 对话五：算力与算法：Scaling Law是信仰还是路径依赖？ - 预训练的Scaling Law已带来巨大进展，但存在经济上的实践极限，因为用户不愿为每个token支付过高费用，且大模型可被蒸馏成更小模型[25] - 预训练的Scaling Law在解决某些问题（如GSM-8K数学数据集）时速度不可行，而强化学习推理能用小模型解决相同问题，显示出更高的数据效率[26] - 推理模型的Scaling Law（通过强化学习让模型运行更长时间以提升性能）受限于Transformer的上下文长度设计以及强化学习在长序列推理中的信用分配问题[27] - 推理的Scaling Law与预训练的Scaling Law有不同限制，这呼唤新的研究和可能的架构或强化学习算法改进[28] 对话六：具身智能的挑战：是数据问题？还是比特和原子的根本性差异？ - 具身智能可能更接近于当前的大语言模型，数据效率正在提高，例如推理模型能用极少样本学会困难任务[29] - 实现具身智能需要一个在大量视频上预训练好的多模态模型作为基础，再结合强化学习进行推理训练，但需要调整架构以适应现实世界行动的速度要求[30] - 第一个版本的具身智能模型可能基于现有成果调整，但未来会出现数据和计算更高效的新一代模型[31] 对话七：强化学习：是超级优化器，还是科学发现的引擎？ - 由强化学习驱动的推理模型可被视为一种数据效率更高的新架构或范式，能够从有限数据（如1000道数学题）中学习[32][33] - 强化学习只依赖一个奖励信号，若优化得当，模型有望从研究论文中学习并提出连专业人员都觉得新颖的想法，推动科学发现[33] - 该范式仍处于早期阶段（社区广泛关注约一年），需要更多尝试、发现和改进以提升效率和应用范围[34] 对话八：AI的组织跃迁：如何实现大规模Agent协作？ - 实现大规模Agent组织（如成千上万个Agent协作）的最大挑战在于开发下一代推理模型，需要类似Transformer之于RNN的架构创新[35] - 当前推理模型顺序生成token的方式缺乏并行性，未来需要为并行过程提供更多信号，并结合新的架构来融入并行处理[36] 对话九：AI记忆的瓶颈：模型离真正的"原生记忆"还有多远？ - 通过将记忆作为工具（如访问互联网或记忆库）并结合强化学习训练，模型可以有效地解决记忆问题，当前方案已相当可行[37][38] - 未来可能出现更优雅的记忆机制，如将记忆转化为连续的向量或通过类似LoRA的适配器微调模型权重，但这仍是待研究的问题[40] 对话十：大模型如何摆脱瞬时学习，而像人类一样持续学习？ - 利用上下文学习作为持续学习的记忆是当前已实现的进展，模型将对话信息放入上下文进行处理，但效率并非最高[39] - 通过记忆工具和像LoRA这样的适配器微调技术，实质性修改权重已变得更加可行，为持续学习提供了基础，但如何优化算法仍是研究重点[40] - 下一代推理架构有望实现更并行的处理，推动模型在科学发现等领域的应用，未来并不遥远[41]