Workflow
Memory Caching(MC)
icon
搜索文档
Transformer与RNN合体,谷歌打下显存门槛,解锁超长上下文
机器之心· 2026-04-17 18:04
文章核心观点 - 谷歌研究团队提出了一种名为“记忆缓存”的新技术,旨在通过机制创新赋予RNN“可生长的记忆容量”,从而找到一种兼顾Transformer与RNN优势的新方法,以解决大模型处理长文本时的内存瓶颈问题 [1][2][4] - 该方法可以让AI处理更长的文本,解锁“超长上下文”能力,同时极大地降低了推理的资源门槛,被业界认为是大模型生产环境所需的关键技术 [4][5] - 尽管在极限的密集召回任务上,该方法尚未彻底超越Transformer,但它为RNN、SSM等架构的进化铺平了道路,可能改变Transformer一家独大的现状 [17][18] 技术背景与问题 - 当前主流大模型基于Transformer架构,其注意力机制的计算和空间复杂度随上下文长度呈二次方增长,这使其擅长长上下文信息召回,但也导致了严重的算力和显存瓶颈,处理超长文本成本极高 [6][7] - 作为替代方案的循环架构,如RNN、线性注意力模型和状态空间模型,虽然具有记忆容量固定、推理速度快、显存占用低的优势,但其必须将所有过去信息压缩到一个固定大小的隐藏状态中,形成“信息漏斗”,导致在密集召回任务中表现远不如Transformer [7] 记忆缓存技术原理 - 记忆缓存技术是一种介于Transformer(无压缩,Token级缓存)和传统RNN(全压缩,单一记忆)之间的新形态,其核心是将成组Token压缩并缓存到长期记忆状态中,在需要时进行检索 [8] - 具体而言,该技术定期对RNN的隐藏状态进行“快照打卡”,形成缓存记忆。在进行信息检索时,模型不仅能查看当前的“在线记忆”,还能直接调取“缓存记忆”中的历史快照,以找回过去的相关信息 [8] 技术变体与特点 - 研究人员提出了三种技术变体:门控残差记忆、记忆汤和稀疏选择性缓存 [10][11][12] - 门控残差记忆和记忆汤的有效记忆会增长,因此解码成本也随之增长 [10][11] - 稀疏选择性缓存通过稀疏地选择过去缓存记忆的一个子集,实现了有效记忆增长的同时,保持每token解码成本相对恒定 [12] 性能表现 - 在760M参数/30B tokens规模的模型上,采用GRM技术的Titans模型在多项任务平均得分达到52.55,优于基础Transformer++的49.64和Samba*的51.46 [15] - 在1.3B参数/100B tokens规模的模型上,采用GRM技术的Titans模型平均得分达到58.33,显著优于基础Transformer++的53.19和Samba*的54.46 [15] - 实验表明,记忆缓存机制在语言建模和长上下文理解任务中,使循环模型的性能得到全面提升,并在最具挑战性的“上下文内召回”任务中击败了其他先进的循环模型,极大缩小了与Transformer的性能差距 [16][17]