Memory Caching（MC） - 财报，业绩电话会，研报，新闻

Memory Caching（MC）

搜索文档

机器之心· 2026-04-17 18:04

文章核心观点 - 谷歌研究团队提出了一种名为“记忆缓存”的新技术，旨在通过机制创新赋予RNN“可生长的记忆容量”，从而找到一种兼顾Transformer与RNN优势的新方法，以解决大模型处理长文本时的内存瓶颈问题 [1][2][4] - 该方法可以让AI处理更长的文本，解锁“超长上下文”能力，同时极大地降低了推理的资源门槛，被业界认为是大模型生产环境所需的关键技术 [4][5] - 尽管在极限的密集召回任务上，该方法尚未彻底超越Transformer，但它为RNN、SSM等架构的进化铺平了道路，可能改变Transformer一家独大的现状 [17][18] 技术背景与问题 - 当前主流大模型基于Transformer架构，其注意力机制的计算和空间复杂度随上下文长度呈二次方增长，这使其擅长长上下文信息召回，但也导致了严重的算力和显存瓶颈，处理超长文本成本极高 [6][7] - 作为替代方案的循环架构，如RNN、线性注意力模型和状态空间模型，虽然具有记忆容量固定、推理速度快、显存占用低的优势，但其必须将所有过去信息压缩到一个固定大小的隐藏状态中，形成“信息漏斗”，导致在密集召回任务中表现远不如Transformer [7] 记忆缓存技术原理 - 记忆缓存技术是一种介于Transformer（无压缩，Token级缓存）和传统RNN（全压缩，单一记忆）之间的新形态，其核心是将成组Token压缩并缓存到长期记忆状态中，在需要时进行检索 [8] - 具体而言，该技术定期对RNN的隐藏状态进行“快照打卡”，形成缓存记忆。在进行信息检索时，模型不仅能查看当前的“在线记忆”，还能直接调取“缓存记忆”中的历史快照，以找回过去的相关信息 [8] 技术变体与特点 - 研究人员提出了三种技术变体：门控残差记忆、记忆汤和稀疏选择性缓存 [10][11][12] - 门控残差记忆和记忆汤的有效记忆会增长，因此解码成本也随之增长 [10][11] - 稀疏选择性缓存通过稀疏地选择过去缓存记忆的一个子集，实现了有效记忆增长的同时，保持每token解码成本相对恒定 [12] 性能表现 - 在760M参数/30B tokens规模的模型上，采用GRM技术的Titans模型在多项任务平均得分达到52.55，优于基础Transformer++的49.64和Samba*的51.46 [15] - 在1.3B参数/100B tokens规模的模型上，采用GRM技术的Titans模型平均得分达到58.33，显著优于基础Transformer++的53.19和Samba*的54.46 [15] - 实验表明，记忆缓存机制在语言建模和长上下文理解任务中，使循环模型的性能得到全面提升，并在最具挑战性的“上下文内召回”任务中击败了其他先进的循环模型，极大缩小了与Transformer的性能差距 [16][17]