刚刚，梁文锋署名开源“记忆”模块，DeepSeek V4更细节了

核心观点 - DeepSeek与北京大学合作发布新论文，提出了一种名为“条件记忆”的新稀疏化维度，并通过引入Engram模块来实现，旨在解决当前大语言模型缺乏原生知识查找机制的问题 [1][3][4] - Engram模块与现有的混合专家模型的条件计算形成互补，在等参数量和等FLOPs条件下，其性能显著优于纯MoE基线模型，并展现出在知识检索、通用推理及代码数学任务上的全面性能提升 [8][9][11] - 研究揭示了MoE与Engram之间的最优资源分配遵循U型扩展规律，并将Engram扩展至270亿参数规模进行验证，表明条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [10][11][13] 技术方案：Engram架构 - 设计目标与流程：Engram模块旨在将静态模式存储与动态计算从Transformer主干网络中分离，其运行包含检索与融合两个阶段 [13][15] - 基于哈希的稀疏检索：通过提取和压缩当前位置的后缀N-gram，并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量，为最大化语义密度，引入了词表投影将有效词表规模缩减约23% [15][16] - 上下文感知门控：在检索后引入了上下文感知的门控机制，对检索到的静态嵌入向量进行动态调整和精炼，以应对哈希冲突或词项多义性带来的噪声 [17][18] - 系统效率优化：Engram的确定性检索机制支持参数存储与计算资源的解耦，在训练阶段采用模型并行将嵌入表分片，在推理阶段支持从主机内存异步预取嵌入向量以隐藏通信延迟 [19][21] - 多级缓存设计：利用N-gram的Zipfian分布特性，构建多级缓存层次结构，将高频嵌入缓存于GPU HBM或主机DRAM，低频模式存于NVMe SSD，从而支持扩展到极大规模记忆容量 [22] 扩展规律与资源分配 - 核心研究问题：研究旨在探究MoE与Engram之间的最优分配比例，以及在无限记忆范式下Engram自身的扩展行为 [24][25] - U型扩展规律：实验发现验证损失与分配比例ρ之间呈现一致的U形关系，纯MoE基准被证明是次优的，将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能 [27][28] - 定量结果：在总参数量约100亿的规模下，验证损失从纯MoE的1.7248改善到最优分配时的1.7109，最优分配点在不同规模间稳定在ρ ≈ 75%-80% [28] - 无限内存扩展：在固定MoE主干上附加Engram表并增加槽数量，验证损失持续改善且遵循严格的幂律，表明更大的内存在不需要额外计算的情况下继续带来收益 [27][28] - 扩展效率：Engram在相同的内存预算下比OverEncoding释放了更大的扩展潜力，验证了条件记忆作为稀疏容量独立、可扩展轴的作用 [29][30] 实验结果：模型性能 - 实验设置：训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型，所有模型在包含2620亿token的语料库上预训练，激活参数量严格匹配 [34][35][36] - 整体性能对比：在等训练计算预算下，所有稀疏变体均显著超越密集模型Dense-4B；在等参数量和等FLOPs条件下，Engram-27B持续改进MoE-27B基准 [37][38] - 知识任务提升：Engram-27B在知识密集型任务上表现优异，例如MMLU准确率提升+3.0，CMMLU提升+4.0 [38] - 推理与代码数学任务提升：在通用推理和代码数学任务上改进更为显著，例如BBH提升+5.0，ARC-Challenge提升+3.7，HumanEval提升+3.0，MATH提升+2.4 [11][38] - 更大规模扩展：扩展到Engram-40B进一步减少了预训练损失，并提高了大多数基准测试的性能，表明扩展的记忆容量在当前token预算内尚未完全饱和 [39] 实验结果：长上下文能力 - 架构优势：通过将局部依赖建模卸载至静态查找，Engram为处理全局上下文保留了注意力容量，从而提升长文本性能 [41] - 超越注意力机制：长文本性能与基础模型的通用建模能力内在耦合，并非仅由架构先验决定 [42] - 受控对比结果：在控制基础模型能力的前提下，Engram模块表现出显著效率增益 [43][44] - 等损耗设置：当预训练损失完全对齐时，Engram-27B在复杂检索任务上大幅超越MoE-27B，例如多查询NIAH准确率从84.2提升至97.0，变量跟踪从77.0提升至87.2 [45][46] - 等计算量设置：在等计算预算下，Engram-27B在所有长文本评估指标上均实现顶尖性能 [46] 机制分析 - 有效深度增加：分析表明，Engram能够将静态知识的重建负担从模型浅层剥离，从而有效加深网络用于复杂推理的有效深度 [11] - 注意力容量释放：通过将局部依赖关系交由查表机制处理，Engram释放了注意力机制的容量，使其更专注于全局上下文建模 [11] - 收敛速度分析：基于LogitLens的逐层KL散度分析显示，在模型浅层KL散度持续保持较低水平，表明Engram加速了预测的收敛 [45] - 表示对齐分析：基于CKA的相似度热力图显示，Engram的浅层在功能上等效于MoE模型的深层，有效地增加了模型的深度 [45]