条件记忆（conditional memory） - 财报，业绩电话会，研报，新闻

新华网财经· 2026-01-13 11:52

论文发布与技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成，合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法，通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] 技术开源与行业影响 - DeepSeek同步开源了相关记忆模块Engram[1] - 该研究为大型语言模型开辟了稀疏性的新维度[1]

DeepSeek发布梁文锋署名新论文

财联社· 2026-01-13 09:15

论文发布与核心技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》 [1] - 论文由北京大学与DeepSeek共同完成，合著作者署名中出现梁文锋 [1] - 论文提出“条件记忆”新方法，通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型性能 [1] 技术原理与性能提升 - 提出的“条件记忆”技术是大型语言模型稀疏性的一个新维度 [1] - 该技术能在知识调用、推理、代码、数学等任务上显著提升模型表现 [1] 开源与行业影响 - DeepSeek同步开源了相关的记忆模块，命名为Engram [1]

人工智能

人工智能

刚刚，梁文锋署名开源「记忆」模块，DeepSeek V4更细节了

机器之心· 2026-01-13 08:12

文章核心观点 - DeepSeek与北京大学合作发布新研究，提出“条件记忆”作为大语言模型稀疏化的新维度，并通过新模块“Engram”实现，旨在解决现有Transformer架构缺乏原生知识查找机制的问题 [1][2][3] - 条件记忆与混合专家模型的条件计算形成互补，研究发现了MoE与Engram之间最优分配的U型扩展规律，在等参数量、等FLOPs条件下，集成Engram的模型性能显著优于纯MoE基线 [7][8][9][10] - Engram模块通过确定性的哈希检索机制，能以O(1)时间复杂度完成知识查找，并将存储与计算解耦，在系统层面实现高效扩展，有望成为下一代稀疏大模型的核心建模原语 [8][11][12] 技术方案：Engram模块设计 - **核心架构**：Engram模块在结构上将静态模式存储与动态计算从Transformer主干网络中分离，对序列每个位置依次执行检索与融合两个功能阶段 [12][14] - **检索机制**：采用基于哈希N-gram的稀疏检索，首先对当前位置后缀进行提取与压缩，并通过哈希以确定性方式检索静态嵌入向量，此过程引入词表投影将有效词表规模缩减约23% [14][15] - **融合机制**：检索后引入上下文感知门控机制，对检索到的静态嵌入向量进行动态调整和精炼，以适应当前上下文并减少噪声干扰 [16][17] 系统效率与扩展优势 - **计算存储解耦**：Engram的确定性检索机制支持将参数存储与计算资源解耦，不同于MoE的动态路由，其检索索引完全由输入决定，支持训练时的模型并行和推理时的预取-重叠策略 [18][20] - **分层缓存设计**：利用N-gram的Zipfian分布特性，构建多级缓存层次结构，将高频嵌入存于GPU HBM或主机DRAM，低频模式存于NVMe SSD，从而支持极大规模记忆容量扩展 [21] - **几乎零开销**：确定性的寻址方式支持从主机内存预取，几乎不会带来额外性能开销 [11] U型扩展规律与稀疏性分配 - **最优分配比例**：在总参数量和训练计算量固定下，研究发现了MoE与Engram分配比例与验证损失间的U型关系，将约20%-25%的稀疏参数预算分配给Engram能获得最佳性能 [24][26][27] - **纯MoE次优**：实验表明纯MoE基准是次优的，在10B规模范围内，将稀疏参数预算的约80%分配给MoE，约20%分配给Engram时，验证损失从1.7248改善至1.7109 [26][27] - **无限记忆扩展**：在固定MoE主干上激进扩展Engram记忆槽数量，验证损失持续稳定改善，且遵循严格的幂律，表明Engram提供了可预测的、无需额外计算的扩展能力 [25][27] 实验结果：模型性能对比 - **实验设置**：训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型，在包含2620亿token的语料库上预训练，激活参数量严格匹配 [33][34][35] - **全面性能提升**：在等参数量、等FLOPs条件下，Engram-27B在所有基准测试中持续优于MoE-27B，提升不仅限于知识任务（如MMLU提升+3.0，CMMLU提升+4.0），在通用推理（如BBH提升+5.0，ARC-Challenge提升+3.7）及代码数学推理（如HumanEval提升+3.0，MATH提升+2.4）上更为显著 [10][37] - **扩展有效性**：扩展至Engram-40B进一步降低了预训练损失，并提高了大多数基准测试性能，表明扩展的记忆容量尚未在当前token预算内完全饱和 [38] 长上下文能力分析 - **架构优越性**：在控制基础模型能力的前提下，Engram在长上下文任务中表现出显著增益，例如在多查询NIAH任务中准确率从84.2提升至97.0 [10][44] - **等损耗设置对比**：当预训练损失对齐时，Engram-27B在复杂检索任务上大幅超越MoE-27B基准（多查询NIAH：97.0 vs 84.2；变量跟踪VT：87.2 vs 77.0） [45] - **注意力容量释放**：通过将局部依赖建模卸载至静态查找，Engram为处理全局上下文保留了宝贵的注意力容量，从而提升了长程检索和推理能力 [40] 表示对齐与收敛速度 - **加速收敛**：基于LogitLens的逐层KL散度分析显示，在模型浅层KL散度持续保持较低水平，表明Engram加速了预测的收敛 [44] - **有效深度增加**：基于CKA计算的相似度热力图显示，Engram浅层在功能上等效于MoE模型的深层，从而有效地增加了模型的有效深度 [44]

大语言模型稀疏化

Engram模块

DeepSeek v4

大语言模型稀疏化