MSA(Memory Sparse Attention)
搜索文档
突破一亿Token极限:EverMind提出MSA架构,实现大模型高效端到端长时记忆
机器之心· 2026-03-19 10:59
文章核心观点 - 一篇名为《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》的研究提出了一种名为MSA(记忆稀疏注意力)的新架构,旨在解决大模型长期记忆的扩展性、精度和效率“不可能三角”问题 [1][9] - MSA通过四大技术创新支柱,实现了将大模型的有效上下文长度扩展至1亿(100M)Token,并在长文本任务中表现出卓越的扩展性和精度,性能衰减率极低 [2][9][32] - 该技术被视为一个可插拔的“记忆插件”,有望开启“记忆即服务”(Memory-as-a-Service)的新纪元,并为实现更高级的“发现式AI”愿景提供关键基础设施 [2][42][45] 技术架构与核心创新 - **核心基石:记忆稀疏注意力**:在Transformer注意力层引入基于内容的、可微分的稀疏化“双重路由”机制,动态选择最相关的记忆子集进行计算,将检索步骤内化为可端到端训练的神经网络模块 [12][15][20] - **扩展性关键:文档级旋转位置编码**:为每个独立文档分配独立的旋转位置编码,将文档内部相对位置与全局绝对位置解耦,从而支持从较短训练长度(如64K)到亿级推理长度的无损外推 [16] - **工程化落地:KV缓存压缩与内存并行**:采用分层存储策略,将小体积的路由键常驻GPU显存以实现快速匹配,而将大体积的内容键值存储在CPU内存中,通过异步调度在需要时加载,使亿级Token推理在标准硬件(如2张A800 GPU)上成为可能 [17][18][21] - **复杂推理能力:记忆交错机制**:引入多轮次的“生成式检索→上下文扩展”循环,允许模型进行迭代式推理,动态规划信息搜集路径,从而有效解决需要整合多个分散证据的多跳推理问题 [19][23][24][25] 性能表现与实验验证 - **惊人的扩展性与鲁棒性**:在“大海捞针”测试中,当上下文长度从32K扩展到1M(100万)时,MSA的准确率仅从99%下降至95% [30]。在更极限的MS MARCO问答测试中,记忆规模从16K扩展到100M(1亿)时,性能评分仅从4.023下降至3.669,衰减率不足9% [2][32] - **端到端优化的威力**:在9个QA基准测试的平均分上,仅4B参数的MSA模型(平均分3.760)显著优于基于同规模底座构建的、包含重排器的复杂RAG系统,甚至在多个数据集上表现超过了由顶级检索器和235B参数大模型组成的RAG系统 [35] - **各组件的不可或缺性**:消融实验表明,移除“记忆交错”机制、“持续预训练”中的辅助路由监督或“原始文本注入”中的任一组件,都会导致模型在多跳问答等任务上的性能大幅下降,证明了MSA是一个设计精巧的有机整体 [38] 行业影响与战略意义 - **范式突破与核心价值**:MSA通过将检索内化为可微分的稀疏注意力,实现了检索与生成的端到端联合优化和深度语义对齐,解决了RAG系统“检索-生成”分离导致的精度瓶颈 [41]。它提供了一套兼具扩展性、精度与效率的全新技术基础设施,证明了在RAG的“低精度”和全注意力的“高成本”之外存在可行路径 [41] - **开启“记忆即服务”新纪元**:该技术为AI生态描绘了新的蓝图,即记忆可以作为一种独立的、可插拔的服务,与各种推理大模型自由组合,用户的“记忆资产”不再被锁定在单一模型或厂商中 [2][42] - **赋能“发现式AI”战略愿景**:MSA的研究方EverMind是盛大集团在AI领域布局的核心团队之一,其使命是攻克AI的长期记忆难题。该技术与专注于推理的MiroMind团队共同构成了盛大集团“发现式AI”生态的两大技术基石,旨在让AI辅助人类发现新知识,而不仅仅是模仿已有信息 [44][45]