嵌套学习范式核心观点 - 谷歌提出一种全新的机器学习范式“嵌套学习”,旨在解决大语言模型的持续学习难题,使模型能够不断学习新技能而不遗忘旧知识 [1] - 该范式将模型架构与优化算法视为统一的、具有不同更新频率的“优化层”,突破了传统上将二者割裂的视角 [6][7] - 嵌套学习框架下设计的Hope架构在实验中表现出更强的表达能力、更高效率及持续学习能力,被认为是迈向自适应、自我改进智能的重要一步 [3][4][30] 嵌套学习的技术原理 - 嵌套学习将复杂机器学习模型视为一组相互嵌套或并行运行的优化问题,每个子问题拥有独立的上下文流和更新频率 [11][16] - 该范式揭示了传统深度学习是在“压缩”内部信息流,而嵌套学习提供了新设计维度以构建具有更深计算深度的学习组件 [12] - 训练过程中的反向传播可被建模为一种联想记忆机制,学习将数据点映射到其局部误差以衡量“意外程度” [12] - 类似地,Transformer的注意力机制也可形式化为联想记忆模块,嵌套学习使得模型每个组件都能以不同频率更新,模仿人脑的多时间尺度更新机制 [13][15] 嵌套学习的实际应用与改进 - 在优化器方面,嵌套学习将优化器视为联想记忆模块,通过将优化目标改为更标准的损失指标(如L2回归损失)可推导出对噪声数据更具鲁棒性的新动量公式 [18][19] - 在记忆系统方面,嵌套学习将传统Transformer的短期与长期记忆概念扩展为“连续体记忆系统”,其中记忆被视为一系列以不同特定频率更新的模块,为持续学习创建了更丰富高效的记忆系统 [20][21] Hope架构的设计与性能 - Hope是谷歌基于嵌套学习原理设计的一个自我修改的循环架构,是Titans架构的一个变体,能够执行无限层次的上下文学习 [23][24] - 该架构通过连续体记忆系统模块扩展上下文窗口,并能通过自我引用过程优化自身记忆,形成具有无限循环学习层次的结构 [24] - 实验结果显示,Hope在多项语言建模与常识推理任务上表现出更低的困惑度与更高的准确率,在长上下文记忆管理方面超越了当前最先进的模型 [8][27][30]
突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化