MIRAS
搜索文档
「Memory as a Context」是否将重新定义 Transformer 的 「记忆模式」?
机器之心· 2025-12-14 09:30
要事解读① 「Memory as a Context」是否将重新定义 Transformer 的「记忆模式」 - 谷歌于2024年底提出Titans架构,其核心是设计了一种神经长期记忆模块,能够在测试时根据新输入数据进行在线学习和优化,该模块以多层感知器的形式运行,其突破在于能主动学习识别并保留输入数据中各个标记间的重要关系和概念主题,而非被动存储数据[7] - Titans提出了三种将神经记忆模块与Transformer注意力机制结合的架构变体,分别代表不同的记忆集成思路:「Memory as a Context」、「Memory as a Gate」和「Memory as a Layer」[7] - 技术社区对Titans和「Memory as a Context」思路的探讨升温,有观点认为其可能重新定义Transformer的记忆模式,但2025年10月有研究通过复现实验指出,受限于分块机制,Titans并不总能超越现有基准模型,且记忆组件与模型主干之间的适配优化仍存在挑战[8] - 尽管存在挑战,同一研究也指出,与仅使用注意力的模型相比,Titans的神经记忆组件能够持续提升模型性能[8] - 谷歌团队为Titans等系列建模方法提出了统一的理论框架「MIRAS」,该框架将各种架构视为由「联想记忆架构」、「注意力偏差」、「记忆保持门控」、「记忆学习算法」四个组件抽象组合而成的问题解决方法[7] Transformer的记忆模式如何转变为自适应的Test-Time Learning系统 - 业界在共识到注意力机制局限的背景下,持续探索改进LLM记忆力的方案,以使模型获得持续学习能力,适应动态变化的部署环境,有思潮认为在LLM语境下,持续学习可能是一个「记忆管理」问题[9] - 华为研究者在2025年8月的综述中指出,LLM的记忆机制正从被动的静态缓存转变为具有自适应能力的测试时学习系统,这种系统指模型在推理阶段无需重新训练或微调,即可通过动态调整记忆策略,实时适配任务需求与环境变化,实现「边用边学」[9] - 该综述梳理了过去7年对LLM四项核心记忆操作(读取、写入、遗忘、容量管理)的技术演进,对比了静态缓存机制的局限与近期记忆增强型Transformer的改进方法[10] - 在「读取」操作上,记忆增强型Transformer实现了动态调整检索范围、内容敏感的模式补全以及测试时优化检索策略,代表模型如CDMem、ARMT(支持5000万token O(1)读取)和ABC[10] - 在「写入」操作上,记忆增强型Transformer实现了选择性写入(如仅存储高惊喜度信息)、实时决策每层写入比例以及无梯度更新的超线性容量增长,代表模型如Titans(使用KL惊喜驱动)、LM2和ATLAS[10] - 在「遗忘」操作上,记忆增强型Transformer实现了价值优先的保留策略、测试时调整衰减因子以及主动清理机制,代表模型如MemLong、RA-DT和ARMT[10] - 在「容量管理」操作上,记忆增强型Transformer实现了弹性扩容(如支持超过16万令牌的连贯生成)、语义感知压缩以及测试时资源调度,代表模型如M+、zip2zip和Transformer-Squared[10] 2026将近,世界模型到底更「世界」了吗 - 业界在探索世界模型的发展方向,存在不同路径的对比,例如Sora式的像素级模拟被认为更可靠,而V-JEPA式的抽象表征预测则被认为更高效[2] - 关于世界模型的输出形式存在讨论,其输出的「世界」应是静态资产、实时帧序列,还是用于驱动预测与控制的潜在状态[2] - 大型科技公司布局世界模型,其战略意图存在不同解读:是在补充现有的「数据引擎」,还是在搭建全新的「时空认知」框架[2] 基于100万亿Token的深度分析:OpenRouter联合a16z发布《State of AI》报告 - 中国开源模型的全球流量份额在一年内从1.2%大幅提升至近30%[2] - 「智能体式推理」已经取代「对话生成」,成为消耗超过50%流量的主流使用范式[2] - 参数量在15B至70B之间的「中型模型」击败了更小和更大的模型,成为在效能平衡上的最优解[2] - AI应用的发展呈现两极分化趋势,正在向「高成本生产力」工具和「低成本娱乐」应用两个极端集中[2]
GoogleTitans架构再次亮相NeurIPS2025,补全Transformer的长上下文短板
海通国际证券· 2025-12-08 14:12
报告行业投资评级 * 报告未对特定公司或行业给出明确的投资评级(如优于大市、中性、弱于大市)[1][5][17][23][24] 报告的核心观点 * Google在NeurIPS 2025重申其Titans架构并发布理论框架MIRAS,这被视为Transformer之后的重要架构演进方向,旨在解决大模型在超长上下文、长期记忆和跨文档推理上的核心瓶颈[1][11] * Titans架构通过记忆增强与递归-注意力混合设计,实现了百万级token的长文本处理能力,官方表示能处理约**200万** token,支持整本书、代码仓、合规文档等超长文本任务[2][12] * 相较于主流Transformer,Titans的核心创新在于推理阶段的动态记忆(test-time learning),允许模型在使用过程中动态更新内部记忆结构,从而在长任务链和跨会话任务中保持更强的连续性与知识积累能力[3][13] * Titans是对Transformer架构的有效补全而非替代,它在长上下文理解、代码仓分析、企业知识库检索、多文档推理及长期对话智能体等场景中具备显著优势,而Transformer在短文本、低延迟推理等传统任务上仍保持效率与成熟度优势,两者短期内将呈现分工式共存[4][14][16] 根据相关目录分别进行总结 事件与架构概述 * Google在NeurIPS 2025再次强调其Titans架构,并公开相关理论框架MIRAS[1][11] * Titans支持**百万级** token上下文处理,并引入推理阶段学习能力,推动模型向可持续积累经验的智能体方向迈进[1][11] Titans架构的技术突破 * **长期记忆模块(Neural Memory)**:引入可更新记忆模块,模型在推理中可将关键信息写入记忆并在后续检索,形成类似长期记忆的结构[2][12] * **递归与注意力的混合结构**:使用递归结构(RNN-like updates)负责线性处理长序列,注意力机制(Transformer-like interactions)负责复杂交互[2][12] * **MIRAS理论框架**:定义了何时写记忆、如何筛选重要信息以及如何在推理阶段动态更新的规则[2][12] 与Transformer的对比分析 * **处理效率**:Transformer依赖全局注意力,复杂度随序列长度呈平方级(O(N²))增长,在百万级token任务上存在显著计算与存储瓶颈;Titans通过关键表示提取与记忆写入路径,大幅降低了长文本处理成本[3][13] * **推理动态性**:Transformer的推理过程是静态的,基于训练固化的参数;Titans引入推理阶段学习,允许动态更新内部记忆结构[3][13] * **应用场景分工**:Titans在长文本理解、代码仓分析、企业知识库检索、多文档工作流和长期智能体等场景中具备明显优势;Transformer在短上下文、高吞吐量及对延迟敏感的任务上仍是更优解[3][4][13][14][16] 性能表现 * Titans在超长序列任务中显著领先,能在百万级上下文保持高准确率[7] * 在相同规模与训练量下,Titans保持更优的训练效率与模型质量[8][10]
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
量子位· 2025-12-05 17:33
谷歌发布突破性大模型新架构 - 谷歌在NeurIPS 2025上发布两项关于大模型新架构的研究,旨在突破Transformer在处理超长上下文时的根本局限 [1][2] - 新架构通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token [2] - 谷歌近期在从产品到基础研究方面展现出穷追猛打的竞争态势 [5] Transformer架构的固有局限 - Transformer的自注意力机制导致计算量和内存消耗与序列长度的平方成正比(O(N²)),这是处理超长上下文时的主要瓶颈 [4][7] - 学界已探索线性循环网络和状态空间模型等替代方案,通过将上下文压缩到固定大小实现线性扩展,但难以充分捕捉超长序列中的丰富信息 [9][10] Titans架构:结合RNN速度与Transformer性能 - Titans是谷歌提出的新架构,其目标是结合RNN的速度和Transformer的性能 [8][11] - 该架构的核心是“测试时记忆”,模型在推理过程中无需离线重新训练,即可通过整合新信息来维持长期记忆 [12] - Titans引入了一种新的“神经长期记忆模块”,该模块本质上是一个在推理阶段仍能动态更新权重的多层感知机 [14][15] - 其关键设计是能够主动学习识别并保留输入数据中连接各个token的重要关系和概念,更新机制基于“惊喜指标”,即模型检测到记忆内容与新输入内容之间的差异 [18][19][20] - 低意外度的输入仅作为短期记忆处理,高意外度的输入则被优先存储到长期记忆模块中 [21] MAC:Titans的主要变体 - MAC是Titans架构的一种主要变体,其设计思路是将长期记忆作为额外的上下文信息直接输入给注意力机制 [16] - MAC不改变注意力计算方式,而是改变了注意力的输入来源,将长期记忆的“摘要”与当前短期输入一起处理 [16] - 实验表明,Titans (MAC)变体在多项长上下文测试中表现优异,例如在S-NIAH-W任务16K长度下准确率达到95.2%,显著优于Mamba 2(0.0%)和DeltaNet(0.0%)等模型 [30] MIRAS:序列建模的统一理论框架 - MIRAS是支持Titans背后的核心理论框架,其核心目标是让模型在推理阶段也能进行学习 [8][22] - MIRAS将任意序列模型解构为四个关键设计选择:内存架构、注意力偏差、保留门控(遗忘机制)和记忆算法 [23][28] - 该框架的创新在于引入非欧几里得目标函数,允许使用更复杂的数学惩罚机制来更新记忆 [26] - 基于MIRAS,研究人员创建了三个特定的无注意力模型:YAAD、MONETA和MEMORA,分别采用不同的损失函数和规则来提升鲁棒性、稳定性和可控性 [27][29] 性能表现与行业影响 - 基于Titans和MIRAS的模型性能优于最先进的线性循环模型(如Mamba 2)以及规模相近的Transformer基线模型 [27] - 新架构能够在参数规模小得多的情况下,处理极长上下文,并且性能优于GPT-4等大规模模型 [32] - 谷歌方面表示,尽管面临竞争,但不后悔公开Transformer研究,认为其对世界产生了巨大的积极影响 [34]