Workflow
Nested Learning
icon
搜索文档
LLM 的记忆问题「很快」就不再是问题了?
机器之心· 2026-02-15 09:30
文章核心观点 - 智能体正经历从高效单任务执行向动态环境下持续自适应、能力演化与经验积累的范式转变,AI Memory作为核心基石赋能智能体保持行为一致性、理性决策与高效协作[1] - AI Memory的研究已分化为专注于底层计算机制的**LLM Memory**和专注于支撑自主行为功能流程的**Agent Memory**两条演进路径[1][5] - 开源项目OpenClaw展示的“长效记忆”能力引发了社区对AI持久记忆的热议,但这更多体现了Agent Memory在工程上的成功,而非LLM Memory的根本性突破[4][5] - AI Memory的核心价值不仅是解决技术瓶颈,更是推动AI系统从通用工具升级为以人为中心的自适应、协作智能体的变革性赋能工具[6] 01. OpenClaw 的「长效记忆」为何不代表「AI 拥有持久记忆」? - 开源项目OpenClaw在2026年初病毒式流行,其GitHub星标数在2026年2月已突破19万颗,其核心竞争力被视为能够跨越数周乃至数月维持持久性记忆的“有手的Claude”[4][5] - 社区热议的核心在于OpenClaw展示的“长效记忆”能力是否代表“AI拥有持久记忆”的未来即将来临[5] - AI记忆问题被视为推动更高阶智能演进的核心瓶颈,改善AI记忆力的研究已成为LLM相关研究中最受关注的前沿方向之一[5] - 2025年涌现了多项改善AI Memory的探索,如Meta的“SMF”、谷歌的“Nested Learning”范式及HOPE模型、MIT的“BEYOND CONTEXT LIMITS”工作等[5] - 学术界对AI Memory的关注度不断提升,例如ICLR 2026专门设立了“MemAgents”研讨会,旨在为智能体构建支持单样本学习和长程一致性的底层记忆基底[5] - AI记忆问题已分化为两条演进路径:**LLM Memory**与**Agent Memory**[5] - **LLM Memory**构成了预测的底层计算机制,包括嵌入在预训练模型权重中的参数化记忆和通过上下文窗口管理的运行时记忆,其优先级在于有限窗口内保证即时生成的准确性,而非维持连贯的自主行为[5] - **Agent Memory**在LLM Memory基础上延伸为系统性支撑自主行为的功能流程,协调感知、规划、行动的循环过程,使系统能够拆解并执行复杂任务[6] - 在Agent或垂直Agent领域,记忆(Agent Memory)更多是一个可以通过场景拆解、针对性构建解决的工程问题,而非科学难题[6] - Agent Memory通过将数据组织为过程性、陈述性、元认知等不同格式,使系统能够从历史经验中学习,推动数据从静态记录向动态“经验”转变,实现反思和策略优化[6] - 相对于Agent Memory的繁荣,**LLM Memory**仍面临“稳定性-塑性困境”等挑战,即在通过微调注入新信息时,模型往往会丢失旧的、重要的知识[6] 02. AI Memory 的研究视角在如何变化? - AI Memory的核心价值不止于缓解大语言模型的上下文窗口有限、交互无状态等技术瓶颈,更被视为推动人工智能系统从通用工具升级为具备自适应、协作能力的以人为中心智能体的变革性赋能工具[6] - 研究者开始从多样视角审视AI Memory,并对其理论依据、运作机理及边界进行深入探索与迭代[6] - 2025年4月,华为诺亚方舟实验室的“From Human Memory to AI Memory”从人类认知科学中的记忆理论出发,为理解LLM Agent的记忆机制提供了一个类比框架[7] 03. 近期工作在如何探索 LLM Memory 和 Agent Memory? - 文章未提供该目录下的具体内容细节[3]
谷歌刚掀了模型记忆的桌子,英伟达又革了注意力的命
36氪· 2026-01-20 09:12
文章核心观点 - 英伟达与斯坦福的研究人员提出了一种名为“端到端测试时训练”的新方法,旨在通过让大语言模型在推理过程中持续更新自身参数来学习并内化长上下文信息,从而替代或补充传统的基于注意力机制的KV缓存记忆方式 [1][4] - 该方法将记忆重新定义为一种持续的学习过程,其价值在于改变模型未来的预测,而非完整存储过去,为解决传统注意力机制因二次方成本而面临的可扩展性瓶颈提供了一种潜在的工程解决方案 [34] 技术演进与核心理念 - 测试时训练并非全新概念,其早期形式可追溯至2013年的动态评估,核心思想是在推理时通过下一词预测损失对模型参数进行小步梯度更新,使其适应当前文本的局部特征 [5] - 英伟达的TTT-E2E方法回归了最原初的动态评估理念,其测试时更新的唯一目标函数就是网络末端的下一词预测交叉熵损失,这使得模型的学习与最终任务完全对齐 [10] - 与谷歌Nested Learning等TTT-KVB路线不同,TTT-KVB侧重于教导模型如何构建内部记忆结构,而TTT-E2E则直接优化最终预测目标,实验表明后者能带来更低的语言建模损失 [10][16] 方法创新与工程实现 - 研究团队通过移除Transformer中的所有自注意力层,构建了一个仅含多层感知机的“玩具模型”,证明了仅靠测试时参数更新就能编码长上下文信息,其性能曲线几乎紧贴全注意力模型 [12][15] - 为了解决早期动态评估存在的训练-测试不匹配导致的参数漂移和灾难性遗忘问题,TTT-E2E引入了元学习框架,在训练阶段就模拟推理时的更新过程,让模型学会如何稳定、高效地更新自身参数 [20][21] - 在工程层面,该方法采用了多重安全阀以确保稳定性,包括结合滑动窗口注意力作为短期记忆、冻结大部分网络层、仅更新最后1/4的块,以及在可更新块中引入静态MLP来保护预训练知识 [24][25] 性能表现与优势 - 在语言建模损失方面,将760M参数模型的TTT-KVB方法改为使用下一词预测损失后,在8K上下文长度下的损失从2.818降至2.806,提升了0.012,这表明端到端优化能直接提升预测能力 [16][17] - 在长上下文扩展性上,当上下文长度增加到64K乃至128K时,TTT-E2E的损失曲线保持稳定,未出现优势稀释,而Mamba 2、Gated DeltaNet等其他线性时间模型以及TTT-KVB的损失则开始上升 [27] - 在推理延迟方面,TTT-E2E继承了参数学习方法的优势,其延迟不随上下文长度增长而显著增加,在H100上处理128K上下文的预填充阶段比全注意力模型快约2.7倍 [29] 局限性与适用场景 - TTT-E2E及其所在的线性模型路线在需要精确检索的“海底寻针”类测试中表现不佳,被全注意力模型碾压,这表明其记忆方式更偏向于压缩和概括,而非逐字存档 [31] - 该方法的训练成本较高,其训练延迟比标准Transformer高出50-100%,这在扩展到工业级的数万亿token训练时可能成为一个制约因素 [33] - 该方法更适合写作连贯性、长文理解、风格约束等任务,通过以学习压缩换取长上下文的可扩展性,使模型在超长上下文上既能高效运行,又能提升预测能力 [31][34]