协同记忆Transformer (CoMeT)
搜索文档
32k微调处理百万Token:21倍的推理加速,10倍的峰值显存节省,实现恒定内存消耗
量子位· 2026-02-13 21:19
文章核心观点 - 阿里巴巴未来生活实验室的研究团队推出了一种名为协同记忆Transformer(CoMeT)的全新即插即用架构,旨在解决大语言模型处理超长上下文时面临的计算和内存瓶颈 [3] - CoMeT通过设计一套双轨并行的协同记忆系统,使模型能够高效处理无限长上下文,在仅用32k上下文微调后,即可在100万token的文本中精准定位信息,并显著优化推理时间和内存占用 [3][4] 长文本处理的技术瓶颈与现有方案局限 - 当大模型处理100万token的超长文档时,会面临内存爆炸和计算崩溃的问题 [1] - Transformer架构存在固有瓶颈:计算复杂度与上下文长度成平方关系,而KV Cache则线性增长,导致模型在超长序列面前既“算不动”也“存不下” [1] - 现有解决方案存在明显缺陷:上下文压缩本质上有损,会导致信息丢失;而采用循环机制的模型则存在“健忘”问题,难以保留关键信息和近期细节 [1] CoMeT的协同记忆架构设计 - 该架构的核心是设计了一套双轨并行的协同记忆系统,使模型既能“记得牢”又能“看得清” [4] - **全局记忆**:引入一个固定大小的、带“门禁”的记忆保险箱,通过门控更新机制智能判断新信息的重要性,决定是否将其写入长期记忆,以解决长期遗忘问题 [5] - **临时记忆**:引入由先进先出队列管理的高保真“事件流”,持续压缩并暂存最近处理过的文本块信息,确保模型能随时访问最临近、最详细的上下文 [6] - 通过全局记忆和临时记忆的协同工作,CoMeT实现了恒定的内存占用和线性的时间复杂度,从根本上打破了Transformer的性能瓶颈 [7] CoMeT的性能与效率表现 - **基准测试表现**:在长文本评测基准SCROLLS上,CoMeT在同等内存预算下,平均性能超越了所有主流的高效长文本方法,并在摘要任务上达到了与全注意力基线相媲美的性能 [9][10] - 具体数据:CoMeT在SCROLLS基准上的平均得分达到40.10,超越了其他方法如SWA的38.24、LongLLMLingua的37.36等 [11] - **效率提升**:相较于标准的Full Attention模型,CoMeT在处理100万长度文本时,实现了21倍的推理加速和10倍的峰值显存节省 [12] - **机制验证**:消融实验表明,全局记忆和临时记忆各司其职、缺一不可。全局记忆是模型实现强大长度外推能力的关键,而临时记忆则是模型在处理复杂任务时获得优异性能的基础 [15] 研究的意义与影响 - 这项研究为大模型长文本处理领域带来了里程碑式的突破,优雅地解决了困扰业界的“记忆困境” [18] - 研究证明,为大型语言模型设计更符合认知科学的记忆机制,是通往更强大、更实用通用人工智能的关键一步 [18]