Workflow
HOPE
icon
搜索文档
Google又发布了一篇可能改变AI未来的论文,这次它教AI拥有了记忆。
数字生命卡兹克· 2025-11-25 09:20
文章核心观点 - 当前以Transformer架构为基础的大语言模型存在“顺行性遗忘症”的根本缺陷,即模型参数在预训练结束后被冻结,无法形成新的长期记忆,每次对话都相当于与一个仅有出厂设置的AI互动 [11][17][21][24] - 谷歌研究提出的《Nested Learning》论文及HOPE模块旨在从架构层面解决此问题,其核心思想是模仿人脑多频率、多层次的学习与记忆巩固机制,让AI具备持续学习和知识内化的能力 [25][33][40][70] - 嵌套学习框架将AI模型明确拆分为不同更新频率的层级,使AI能够像人脑一样,在互动中通过高频、中频、低频层的协同工作,将短期经验逐步固化为长期记忆,从而实现真正的持续成长和个性化 [49][51][53][72] - 该方法与当前基于RAG的外部记忆功能有本质区别,后者仅是行为模拟,而嵌套学习追求的是神经网络参数本身的、结构性的成长,让知识内化为模型自身能力的一部分 [58][59][64][66] - 初步实验数据显示,在同等参数量和训练数据下,HOPE模型在一系列常见评测任务中取得了领先或极具竞争力的平均成绩,证明了该路径的可行性 [73][74] 当前AI模型的根本缺陷 - 大模型普遍患有“顺行性遗忘症”,其庞大的预训练参数相当于长期记忆,但训练结束后便失去形成新长期记忆的能力,新知识仅存在于短暂的对话上下文窗口中 [11][17][21] - 这导致AI的知识被永久冻结在预训练完成的那一刻,无法从与用户的持续互动中真正了解用户或固化经验,每次新对话都像是在与一个全新的、仅有出厂设置的AI打交道 [21][22][23] - 该缺陷源于现有Transformer架构本质上是一个“单频系统”,所有参数在训练时更新节奏基本一致,训练结束后系统即被锁死,所有学习活动停止 [42][43][44] 人脑学习机制的启示 - 人脑的学习是嵌套式、分层次、分频率的,不同频率的脑电波对应不同层次的信息处理任务,例如高频处理即时信息,低频负责整理、归纳和长期存储 [28][30][32][33] - 记忆巩固分阶段进行,短期记忆先在海马体形成,睡眠时通过脑波回放(离线巩固)将重要信息筛选并写入大脑皮层,成为稳定的长期记忆 [14][52] - 以学习开车为例,从毫秒级的肌肉反应(高频),到秒级的战术决策(中频),再到更慢的战略规划(低频),直至以月为单位重塑驾驶模型的根本性学习(最低频),展示了多层次学习的协同 [34][35][36][37][38][39] 嵌套学习(Nested Learning)框架与HOPE模块 - 该框架旨在让AI模仿人脑的多频率学习机制,明确将模型拆分为不同更新频率的层级 [49] - 核心模块HOPE结合了可自我修改权重的序列模型和多时间尺度的连续记忆带,形成了带自我更新机制的记忆单元 [45][47][48] - 在该框架下,AI对话时:高频层快速处理即时对话内容(临时记忆);中频层以稍慢速度分析对话主题与用户情绪(概要记忆);低频层以更慢速度整合长期互动,形成关于用户的稳定长期档案 [50][51] - 此过程赋予了AI类似人脑的“离线巩固”能力,即“睡觉和反思”的能力,使其能够日积月累、不断沉淀,成为一个持续的学习者 [52][53][54] 与现有记忆技术(RAG)的本质区别 - ChatGPT等产品现有的记忆功能本质是检索增强生成技术,将用户信息存入外部数据库,在对话时作为背景信息检索插入,并未改变模型自身的神经网络参数 [24][58][59][60] - 这如同随身携带笔记本查阅,而非记在脑子里,AI的核心模型(万亿参数)并未发生任何改变,其“大脑”本身仍是失忆状态 [58][60][61][62] - 嵌套学习的目标是“重塑大脑”,即利用互动数据直接微调和更新神经网络内部的参数,将新知识内化为模型自身的能力,如同钢琴家通过练习将乐谱融入肌肉记忆与情感理解,而非依赖外部乐谱 [64][66][67][68][69] - 现有记忆是行为上的模拟,而嵌套学习追求的是结构上的成长,旨在让知识真正转化为智慧 [70] 潜在影响与实验验证 - 该方法有望实现真正的Personal AI,即一个能通过持续互动越来越懂用户、记住用户偏好与背景的个人助理,无需用户每次重复信息 [72] - 论文实验在同等条件下对比了Transformer++、RetNet、DeltaNet、Titans等模型,HOPE在多个评测任务上平均成绩名列前茅 [73] - 具体数据:在760M参数/30B tokens规模下,HOPE平均得分46.90;在1.3B参数/100B tokens规模下,HOPE平均得分57.23,表现优于或接近同期其他先进模型 [74] - 这证明了模仿人脑嵌套、多层次学习机制的技术路径具有成功的可能性 [74][82]