嵌套学习(Nested Learning)与HOPE架构的核心创新 - 借鉴人类联想记忆机制,提出嵌套学习框架,旨在解决AI长期存在的“灾难性遗忘”问题,使AI能在运行中构建抽象结构,实现真正的持续学习 [1] - 嵌套学习的核心是构建一个由更新频率不同的模块组成的嵌套系统,其中包含快模块(如用于上下文学习的快速自更新器)和慢模块(如多时间尺度记忆),以实现不同时间尺度上的学习 [27] - 该框架将优化器与架构视为互为上下文、协同进化的组件,优化器本身被重新定义为一种关键的“记忆模块” [22] - 基于此框架,谷歌DeepMind团队提出了具体的HOPE架构,该架构结合了自我修改与连续记忆系统,专为长上下文处理和持续学习设计 [31] 对Transformer架构局限性的突破 - 指出Transformer架构存在适应性弱、缺乏持续学习能力等关键局限,特别是其“短期记忆”(当前上下文)与“长期记忆”(预训练知识)之间缺乏自然的知识转移通道,类比为医学上的“顺行性遗忘症” [13][14][15][18] - 嵌套学习及HOPE架构旨在超越Transformer,通过建立知识转移通道,使模型能够将新经历自然沉淀为可复用的长期知识,而无需反复进行昂贵的再训练和微调 [18][23] 技术框架:MIRAS与联想记忆 - 提出一个名为MIRAS的通用框架,用于系统化设计AI模型中的记忆模块,其核心思想是将几乎所有注意力机制、本地记忆结构及优化器都视为“联想记忆”的特例 [19] - 联想记忆的本质是键值对映射,其映射关系是通过学习而非预先写死的,注意力机制即为此系统的一种表现 [18] - 基于MIRAS框架,设计可学习的嵌套式记忆系统需做出四大设计决策:记忆架构、注意力偏置/目标函数、保留机制和学习规则 [20] 嵌套学习中的知识转移机制 - 嵌套学习框架定义了多种关键的知识在层级间传递的方式,包括:直接条件传递、非参数化条件传递、通过反向传播传递、初始状态传递(元学习初始化)以及权重生成(超网络) [37] - 这些机制构成了嵌套学习架构中“信息流动”的基础,确保了从快模块到慢模块、从短期到长期的知识有效沉淀 [30] HOPE架构的性能表现 - 在“大海捞针”实验中,HOPE在多种任务设置下表现优异,例如在S-NIAH-1(通行密钥检索)任务中,上下文长度4K、8K、16K下准确率均达100%,与基准Transformer模型(4K:88.6, 8K:76.4, 16K:79.8)相比有显著提升 [39] - 在持续翻译新语言任务中,HOPE在持续学习设置下(蓝点)相比仅学习单一语言(红点)展现出明显优势 [41] - 在BABILong长上下文基准测试中,HOPE的准确率表现优于Llama3 + RAG、GPT-4、GPT-4o-mini及Titans等对比模型 [42] - 在语言建模和常识推理任务中,参数量1.3B的HOPE模型在平均准确率上达到58.04,优于同规模的Transformer++模型(53.38)及Titans模型(56.82) [45] - 在合成基准MAD上,HOPE在回忆、记忆、压缩和复制任务中取得了最佳结果,压缩任务得分51.2,优于Transformer的49.4 [44] - 消融实验表明,HOPE架构中的连续记忆系统、动态梯度下降等组件对其性能提升均有重要贡献 [46] 行业影响与AGI前景 - 嵌套学习被DeepMind联合创始人Shane Legg等业界领袖高度评价,被认为是继2017年Transformer论文之后最重要的进展,可能开启真正的通用人工智能时代 [1][2][3] - Shane Legg预测,到2028年有50%的把握实现初级通用人工智能,而持续学习可能是实现AGI所需的关键突破之一 [7][9][10] - 该研究由谷歌研究院主导,主要作者包括康奈尔大学博士生兼谷歌研究实习生Ali Behrouz,巩固了谷歌在AI基础研究领域的领先地位和塑造未来技术格局的有利位置 [3][11] - 行业观点认为,嵌套学习不只是一个新架构,更是一种重新理解深度学习的范式,其成功应用可能使AI从被动训练转向主动进化 [1][47]
Transformer已死?DeepMind正在押注另一条AGI路线