MSA（Memory Sparse Attention） - 财报，业绩电话会，研报，新闻

MSA（Memory Sparse Attention）

搜索文档

突破一亿Token极限：EverMind提出MSA架构，实现大模型高效端到端长时记忆

机器之心· 2026-03-19 10:59

文章核心观点 - 一篇名为《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》的研究提出了一种名为MSA（记忆稀疏注意力）的新架构，旨在解决大模型长期记忆的扩展性、精度和效率“不可能三角”问题 [1][9] - MSA通过四大技术创新支柱，实现了将大模型的有效上下文长度扩展至1亿（100M）Token，并在长文本任务中表现出卓越的扩展性和精度，性能衰减率极低 [2][9][32] - 该技术被视为一个可插拔的“记忆插件”，有望开启“记忆即服务”（Memory-as-a-Service）的新纪元，并为实现更高级的“发现式AI”愿景提供关键基础设施 [2][42][45] 技术架构与核心创新 - **核心基石：记忆稀疏注意力**：在Transformer注意力层引入基于内容的、可微分的稀疏化“双重路由”机制，动态选择最相关的记忆子集进行计算，将检索步骤内化为可端到端训练的神经网络模块 [12][15][20] - **扩展性关键：文档级旋转位置编码**：为每个独立文档分配独立的旋转位置编码，将文档内部相对位置与全局绝对位置解耦，从而支持从较短训练长度（如64K）到亿级推理长度的无损外推 [16] - **工程化落地：KV缓存压缩与内存并行**：采用分层存储策略，将小体积的路由键常驻GPU显存以实现快速匹配，而将大体积的内容键值存储在CPU内存中，通过异步调度在需要时加载，使亿级Token推理在标准硬件（如2张A800 GPU）上成为可能 [17][18][21] - **复杂推理能力：记忆交错机制**：引入多轮次的“生成式检索→上下文扩展”循环，允许模型进行迭代式推理，动态规划信息搜集路径，从而有效解决需要整合多个分散证据的多跳推理问题 [19][23][24][25] 性能表现与实验验证 - **惊人的扩展性与鲁棒性**：在“大海捞针”测试中，当上下文长度从32K扩展到1M（100万）时，MSA的准确率仅从99%下降至95% [30]。在更极限的MS MARCO问答测试中，记忆规模从16K扩展到100M（1亿）时，性能评分仅从4.023下降至3.669，衰减率不足9% [2][32] - **端到端优化的威力**：在9个QA基准测试的平均分上，仅4B参数的MSA模型（平均分3.760）显著优于基于同规模底座构建的、包含重排器的复杂RAG系统，甚至在多个数据集上表现超过了由顶级检索器和235B参数大模型组成的RAG系统 [35] - **各组件的不可或缺性**：消融实验表明，移除“记忆交错”机制、“持续预训练”中的辅助路由监督或“原始文本注入”中的任一组件，都会导致模型在多跳问答等任务上的性能大幅下降，证明了MSA是一个设计精巧的有机整体 [38] 行业影响与战略意义 - **范式突破与核心价值**：MSA通过将检索内化为可微分的稀疏注意力，实现了检索与生成的端到端联合优化和深度语义对齐，解决了RAG系统“检索-生成”分离导致的精度瓶颈 [41]。它提供了一套兼具扩展性、精度与效率的全新技术基础设施，证明了在RAG的“低精度”和全注意力的“高成本”之外存在可行路径 [41] - **开启“记忆即服务”新纪元**：该技术为AI生态描绘了新的蓝图，即记忆可以作为一种独立的、可插拔的服务，与各种推理大模型自由组合，用户的“记忆资产”不再被锁定在单一模型或厂商中 [2][42] - **赋能“发现式AI”战略愿景**：MSA的研究方EverMind是盛大集团在AI领域布局的核心团队之一，其使命是攻克AI的长期记忆难题。该技术与专注于推理的MiroMind团队共同构成了盛大集团“发现式AI”生态的两大技术基石，旨在让AI辅助人类发现新知识，而不仅仅是模仿已有信息 [44][45]

记忆即服务（Memory-as-a-Service）

发现式AI（Discoverative AI）

人工智能

MSA（Memory Sparse Attention）

记忆即服务（Memory-as-a-Service）

发现式AI（Discoverative AI）

人工智能

MSA（Memory Sparse Attention）