Transformer记忆模式
搜索文档
「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?
机器之心· 2025-12-14 09:30
要事解读① 「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」 - 谷歌于2024年底提出Titans架构,其核心是设计了一种神经长期记忆模块,能够在测试时根据新输入数据进行在线学习和优化,该模块以多层感知器的形式运行,其突破在于能主动学习识别并保留输入数据中各个标记间的重要关系和概念主题,而非被动存储数据[7] - Titans提出了三种将神经记忆模块与Transformer注意力机制结合的架构变体,分别代表不同的记忆集成思路:「Memory as a Context」、「Memory as a Gate」和「Memory as a Layer」[7] - 技术社区对Titans和「Memory as a Context」思路的探讨升温,有观点认为其可能重新定义Transformer的记忆模式,但2025年10月有研究通过复现实验指出,受限于分块机制,Titans并不总能超越现有基准模型,且记忆组件与模型主干之间的适配优化仍存在挑战[8] - 尽管存在挑战,同一研究也指出,与仅使用注意力的模型相比,Titans的神经记忆组件能够持续提升模型性能[8] - 谷歌团队为Titans等系列建模方法提出了统一的理论框架「MIRAS」,该框架将各种架构视为由「联想记忆架构」、「注意力偏差」、「记忆保持门控」、「记忆学习算法」四个组件抽象组合而成的问题解决方法[7] Transformer的记忆模式如何转变为自适应的Test-Time Learning系统 - 业界在共识到注意力机制局限的背景下,持续探索改进LLM记忆力的方案,以使模型获得持续学习能力,适应动态变化的部署环境,有思潮认为在LLM语境下,持续学习可能是一个「记忆管理」问题[9] - 华为研究者在2025年8月的综述中指出,LLM的记忆机制正从被动的静态缓存转变为具有自适应能力的测试时学习系统,这种系统指模型在推理阶段无需重新训练或微调,即可通过动态调整记忆策略,实时适配任务需求与环境变化,实现「边用边学」[9] - 该综述梳理了过去7年对LLM四项核心记忆操作(读取、写入、遗忘、容量管理)的技术演进,对比了静态缓存机制的局限与近期记忆增强型Transformer的改进方法[10] - 在「读取」操作上,记忆增强型Transformer实现了动态调整检索范围、内容敏感的模式补全以及测试时优化检索策略,代表模型如CDMem、ARMT(支持5000万token O(1)读取)和ABC[10] - 在「写入」操作上,记忆增强型Transformer实现了选择性写入(如仅存储高惊喜度信息)、实时决策每层写入比例以及无梯度更新的超线性容量增长,代表模型如Titans(使用KL惊喜驱动)、LM2和ATLAS[10] - 在「遗忘」操作上,记忆增强型Transformer实现了价值优先的保留策略、测试时调整衰减因子以及主动清理机制,代表模型如MemLong、RA-DT和ARMT[10] - 在「容量管理」操作上,记忆增强型Transformer实现了弹性扩容(如支持超过16万令牌的连贯生成)、语义感知压缩以及测试时资源调度,代表模型如M+、zip2zip和Transformer-Squared[10] 2026将近,世界模型到底更「世界」了吗 - 业界在探索世界模型的发展方向,存在不同路径的对比,例如Sora式的像素级模拟被认为更可靠,而V-JEPA式的抽象表征预测则被认为更高效[2] - 关于世界模型的输出形式存在讨论,其输出的「世界」应是静态资产、实时帧序列,还是用于驱动预测与控制的潜在状态[2] - 大型科技公司布局世界模型,其战略意图存在不同解读:是在补充现有的「数据引擎」,还是在搭建全新的「时空认知」框架[2] 基于100万亿Token的深度分析:OpenRouter联合a16z发布《State of AI》报告 - 中国开源模型的全球流量份额在一年内从1.2%大幅提升至近30%[2] - 「智能体式推理」已经取代「对话生成」,成为消耗超过50%流量的主流使用范式[2] - 参数量在15B至70B之间的「中型模型」击败了更小和更大的模型,成为在效能平衡上的最优解[2] - AI应用的发展呈现两极分化趋势,正在向「高成本生产力」工具和「低成本娱乐」应用两个极端集中[2]