论文背景与核心观点 - 论文提出M+框架,旨在扩展MemoryLLM的长期隐空间记忆能力,将8B级模型的有效记忆跨度从不到20k tokens提升到160k tokens以上,同时保持显存占用不变[2][4] - 核心观点是探索隐空间(Latent-Space)的Memory,相比传统文本级记忆更紧凑且可端到端训练,更接近人类神经激活存储信息的方式[6] 现有记忆模型的缺陷 - 上下文窗口不等同于记忆,GPT-4.1等模型即使支持100万token也会导致显存与延迟线性升高[5] - 主流Token-Level Memory方法存在三大问题:(1)原始文本冗余度高 (2)文本级冲突消解复杂 (3)多模态处理能力弱[5] M+的技术创新 - 在MemoryLLM基础上为8B Llama3模型引入1.67B Memory,每层加入12800个Memory Tokens作为Prefix通过Cross-Attention注入信息[8] - 采用协同提取器(Co-trained Retriever)从CPU侧长期记忆池检索信息,联合训练后记忆跨度从50k提升至160k[16][18] - 更新机制中保留被丢弃的Memory Token至长期记忆池,新生成Token替换旧Token完成更新[11][14] 性能表现 - GPU显存占用仅21,177.76MB,低于对比模型Llama-3.1-8B-SnapKV(32,574.49MB)和Llama-3.2-3B-128k(30,422.70MB)[19] - 在SQuAD数据集上展现超强信息留存能力,160k tokens后仍不完全遗忘历史信息[20] 未来方向 - 研究重点包括更高效存储机制、更智能检索策略及多模态融合的隐空间记忆架构[22] - 技术路线不仅扩展MemoryLLM,更致力于实现接近人类记忆能力的语言模型[22]
ICML 2025 | M+框架来了,增加LLM隐空间记忆,不再受上下文窗口限制
机器之心·2025-07-15 11:20