Workflow
DeepSeek v4
icon
搜索文档
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
36氪· 2026-01-13 08:42
就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》, 与北京大学合作完成,作者中同样有梁文锋署名。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。 针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现。 此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了! 目前,模块「Engram」 ...
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
机器之心· 2026-01-13 08:12
文章核心观点 - DeepSeek与北京大学合作发布新研究,提出“条件记忆”作为大语言模型稀疏化的新维度,并通过新模块“Engram”实现,旨在解决现有Transformer架构缺乏原生知识查找机制的问题 [1][2][3] - 条件记忆与混合专家模型的条件计算形成互补,研究发现了MoE与Engram之间最优分配的U型扩展规律,在等参数量、等FLOPs条件下,集成Engram的模型性能显著优于纯MoE基线 [7][8][9][10] - Engram模块通过确定性的哈希检索机制,能以O(1)时间复杂度完成知识查找,并将存储与计算解耦,在系统层面实现高效扩展,有望成为下一代稀疏大模型的核心建模原语 [8][11][12] 技术方案:Engram模块设计 - **核心架构**:Engram模块在结构上将静态模式存储与动态计算从Transformer主干网络中分离,对序列每个位置依次执行检索与融合两个功能阶段 [12][14] - **检索机制**:采用基于哈希N-gram的稀疏检索,首先对当前位置后缀进行提取与压缩,并通过哈希以确定性方式检索静态嵌入向量,此过程引入词表投影将有效词表规模缩减约23% [14][15] - **融合机制**:检索后引入上下文感知门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以适应当前上下文并减少噪声干扰 [16][17] 系统效率与扩展优势 - **计算存储解耦**:Engram的确定性检索机制支持将参数存储与计算资源解耦,不同于MoE的动态路由,其检索索引完全由输入决定,支持训练时的模型并行和推理时的预取-重叠策略 [18][20] - **分层缓存设计**:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持极大规模记忆容量扩展 [21] - **几乎零开销**:确定性的寻址方式支持从主机内存预取,几乎不会带来额外性能开销 [11] U型扩展规律与稀疏性分配 - **最优分配比例**:在总参数量和训练计算量固定下,研究发现了MoE与Engram分配比例与验证损失间的U型关系,将约20%-25%的稀疏参数预算分配给Engram能获得最佳性能 [24][26][27] - **纯MoE次优**:实验表明纯MoE基准是次优的,在10B规模范围内,将稀疏参数预算的约80%分配给MoE,约20%分配给Engram时,验证损失从1.7248改善至1.7109 [26][27] - **无限记忆扩展**:在固定MoE主干上激进扩展Engram记忆槽数量,验证损失持续稳定改善,且遵循严格的幂律,表明Engram提供了可预测的、无需额外计算的扩展能力 [25][27] 实验结果:模型性能对比 - **实验设置**:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,在包含2620亿token的语料库上预训练,激活参数量严格匹配 [33][34][35] - **全面性能提升**:在等参数量、等FLOPs条件下,Engram-27B在所有基准测试中持续优于MoE-27B,提升不仅限于知识任务(如MMLU提升+3.0,CMMLU提升+4.0),在通用推理(如BBH提升+5.0,ARC-Challenge提升+3.7)及代码数学推理(如HumanEval提升+3.0,MATH提升+2.4)上更为显著 [10][37] - **扩展有效性**:扩展至Engram-40B进一步降低了预训练损失,并提高了大多数基准测试性能,表明扩展的记忆容量尚未在当前token预算内完全饱和 [38] 长上下文能力分析 - **架构优越性**:在控制基础模型能力的前提下,Engram在长上下文任务中表现出显著增益,例如在多查询NIAH任务中准确率从84.2提升至97.0 [10][44] - **等损耗设置对比**:当预训练损失对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B基准(多查询NIAH:97.0 vs 84.2;变量跟踪VT:87.2 vs 77.0) [45] - **注意力容量释放**:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了宝贵的注意力容量,从而提升了长程检索和推理能力 [40] 表示对齐与收敛速度 - **加速收敛**:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [44] - **有效深度增加**:基于CKA计算的相似度热力图显示,Engram浅层在功能上等效于MoE模型的深层,从而有效地增加了模型的有效深度 [44]