条件记忆
搜索文档
DeepSeek发布梁文锋署名新论文
证券时报· 2026-01-13 11:27
论文发布与技术突破 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] - DeepSeek同时开源了相关记忆模块Engram[1] 行业动态与市场关注 - AI应用概念在市场中全线爆发,掀起了涨停潮[4]
DeepSeek发布梁文锋署名新论文
证券时报· 2026-01-13 11:02
论文发布与核心技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构来增强大型语言模型[1] 技术原理与性能提升 - 新方法在模型参数总量和计算力消耗保持不变的条件下,显著提升了模型性能[1] - 性能提升主要体现在知识调用、推理、代码生成和数学任务等多个关键任务上[1] 开源与生态建设 - DeepSeek同步开源了与论文相关的记忆模块,命名为Engram[1]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
36氪· 2026-01-13 09:24
核心观点 - DeepSeek与北京大学联合发布新论文,提出了一种名为Engram的条件记忆模块,旨在解决Transformer架构缺乏原生知识查找机制的关键难题,通过将“稀疏化”应用于“记忆”而非仅“计算”,为大型语言模型开辟了一条新的技术路线[1][9][11] - Engram模块将语言建模中大量固定、局部、重复的模式(如实体名、固定搭配)交给一个可扩展的、具有近似O(1)复杂度的查表模块处理,从而将Transformer主干的注意力与深度计算资源解放出来,专注于需要组合与推理的任务[11][12][15] - 实验发现,MoE(条件计算)与Engram(条件记忆)之间存在“U形缩放定律”,需要在两者之间分配稀疏参数预算以找到最优权衡,这标志着稀疏化模型进入了“计算+记忆”双轴互补的新时代[3][33][46] - 在严格等参数、等计算量的条件下,集成Engram的模型(如Engram-27B)在知识、推理、代码、数学等广泛基准测试上全面优于传统的纯MoE基线模型,并且其收益具有结构性,能提升模型整体效率[5][38][48] - Engram的确定性检索特性使其在系统优化上具有优势,支持参数存储与计算资源的解耦,为“更大参数量、同等吞吐量”的工程实现提供了可行路径,并可能被集成到DeepSeek的下一代模型V4中[30][49][50] 技术架构与原理 - **核心设计**:Engram是一个插在Transformer中间层的可扩展条件记忆模块,其核心思想是将经典的哈希N-gram嵌入现代化,通过“暴力查表+记忆开关”的机制,为静态模式提供确定性的快速查找[16][18] - **工作流程**:模块分为检索和融合两个阶段。首先通过分词器压缩和确定性多头哈希,将局部上下文映射到静态记忆条目中;然后通过一个上下文感知的门控机制,动态决定是否采纳检索到的先验信息[20][21][25] - **门控机制验证**:可视化分析显示,Engram的门控机制能有效识别并激活处理多语言中的固定短语、命名实体等局部静态模式,证实了其按预期工作并将Transformer主干从记忆这些模式中解放出来[27][28][29] - **系统效率**:与MoE依赖隐藏状态动态路由不同,Engram的检索仅取决于输入Token序列,这种确定性支持在训练时进行模型并行,在推理时实现参数预取和计算重叠等优化策略[30][32] 实验发现与性能表现 - **U形缩放定律**:验证损失与分配给MoE的稀疏参数比例ρ之间存在一致的U型关系,证实了条件计算与条件记忆的结构互补性,纯MoE或纯Engram都不是最优解[33][37] - **内存扩展收益**:在探索范围内,扩展Engram的内存槽位数量能带来清晰且一致的验证损失改善,并遵循严格的幂律,表明其提供了一种可预测的、无需额外计算成本的扩展手段[37] - **基准测试全面领先**:在总参数26.7B、激活参数3.8B、训练Token数262B的同等设置下,Engram-27B在多个基准上全面超越MoE-27B,包括:MMLU准确率提升3.0个百分点,BBH提升5.0个百分点,HumanEval提升3.0个百分点,GSM8K提升2.2个百分点,MATH提升2.4个百分点[38][40] - **长上下文能力增强**:通过将局部依赖建模卸载给Engram,模型保留了更多注意力容量用于管理全局上下文,在长上下文扩展训练中,Engram模型在等损失或等计算量的设定下,其长程检索和推理任务性能显著优于MoE基线[41][44][45] 行业影响与未来展望 - **架构范式演进**:该研究标志着大模型稀疏化从单一的“条件计算”轴,进入了“条件计算”与“条件记忆”双轴互补的新时代,丰富了稀疏化的目标和内涵[46][47] - **潜在产品集成**:市场猜测DeepSeek即将发布的V4模型有很大概率将Engram融入其主干架构,若实现,将不仅是参数规模的提升,更可能是一次架构范式的跃迁[50][51] - **工程优化前景**:Engram的确定性查表特性非常适合系统级优化,为在保持吞吐量的前提下部署更大参数量的模型提供了新的工程思路,可能影响未来的硬件和系统设计[30][49]
刚刚,梁文锋署名开源“记忆”模块,DeepSeek V4更细节了
程序员的那些事· 2026-01-13 08:56
核心观点 - DeepSeek与北京大学合作发布新论文,提出了一种名为“条件记忆”的新稀疏化维度,并通过引入Engram模块来实现,旨在解决当前大语言模型缺乏原生知识查找机制的问题 [1][3][4] - Engram模块与现有的混合专家模型的条件计算形成互补,在等参数量和等FLOPs条件下,其性能显著优于纯MoE基线模型,并展现出在知识检索、通用推理及代码数学任务上的全面性能提升 [8][9][11] - 研究揭示了MoE与Engram之间的最优资源分配遵循U型扩展规律,并将Engram扩展至270亿参数规模进行验证,表明条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [10][11][13] 技术方案:Engram架构 - **设计目标与流程**:Engram模块旨在将静态模式存储与动态计算从Transformer主干网络中分离,其运行包含检索与融合两个阶段 [13][15] - **基于哈希的稀疏检索**:通过提取和压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量,为最大化语义密度,引入了词表投影将有效词表规模缩减约23% [15][16] - **上下文感知门控**:在检索后引入了上下文感知的门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以应对哈希冲突或词项多义性带来的噪声 [17][18] - **系统效率优化**:Engram的确定性检索机制支持参数存储与计算资源的解耦,在训练阶段采用模型并行将嵌入表分片,在推理阶段支持从主机内存异步预取嵌入向量以隐藏通信延迟 [19][21] - **多级缓存设计**:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持扩展到极大规模记忆容量 [22] 扩展规律与资源分配 - **核心研究问题**:研究旨在探究MoE与Engram之间的最优分配比例,以及在无限记忆范式下Engram自身的扩展行为 [24][25] - **U型扩展规律**:实验发现验证损失与分配比例ρ之间呈现一致的U形关系,纯MoE基准被证明是次优的,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能 [27][28] - **定量结果**:在总参数量约100亿的规模下,验证损失从纯MoE的1.7248改善到最优分配时的1.7109,最优分配点在不同规模间稳定在ρ ≈ 75%-80% [28] - **无限内存扩展**:在固定MoE主干上附加Engram表并增加槽数量,验证损失持续改善且遵循严格的幂律,表明更大的内存在不需要额外计算的情况下继续带来收益 [27][28] - **扩展效率**:Engram在相同的内存预算下比OverEncoding释放了更大的扩展潜力,验证了条件记忆作为稀疏容量独立、可扩展轴的作用 [29][30] 实验结果:模型性能 - **实验设置**:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,所有模型在包含2620亿token的语料库上预训练,激活参数量严格匹配 [34][35][36] - **整体性能对比**:在等训练计算预算下,所有稀疏变体均显著超越密集模型Dense-4B;在等参数量和等FLOPs条件下,Engram-27B持续改进MoE-27B基准 [37][38] - **知识任务提升**:Engram-27B在知识密集型任务上表现优异,例如MMLU准确率提升+3.0,CMMLU提升+4.0 [38] - **推理与代码数学任务提升**:在通用推理和代码数学任务上改进更为显著,例如BBH提升+5.0,ARC-Challenge提升+3.7,HumanEval提升+3.0,MATH提升+2.4 [11][38] - **更大规模扩展**:扩展到Engram-40B进一步减少了预训练损失,并提高了大多数基准测试的性能,表明扩展的记忆容量在当前token预算内尚未完全饱和 [39] 实验结果:长上下文能力 - **架构优势**:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了注意力容量,从而提升长文本性能 [41] - **超越注意力机制**:长文本性能与基础模型的通用建模能力内在耦合,并非仅由架构先验决定 [42] - **受控对比结果**:在控制基础模型能力的前提下,Engram模块表现出显著效率增益 [43][44] - **等损耗设置**:当预训练损失完全对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B,例如多查询NIAH准确率从84.2提升至97.0,变量跟踪从77.0提升至87.2 [45][46] - **等计算量设置**:在等计算预算下,Engram-27B在所有长文本评估指标上均实现顶尖性能 [46] 机制分析 - **有效深度增加**:分析表明,Engram能够将静态知识的重建负担从模型浅层剥离,从而有效加深网络用于复杂推理的有效深度 [11] - **注意力容量释放**:通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制的容量,使其更专注于全局上下文建模 [11] - **收敛速度分析**:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [45] - **表示对齐分析**:基于CKA的相似度热力图显示,Engram的浅层在功能上等效于MoE模型的深层,有效地增加了模型的深度 [45]
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
36氪· 2026-01-13 08:42
公司技术发布 - DeepSeek与北京大学合作发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,提出条件记忆(conditional memory)新概念,以解决现有Transformer架构缺乏原生知识查找机制的问题 [1][3] - 公司提出并实现了一个名为“Engram”的新模块,旨在与混合专家(MoE)的条件计算形成互补,相关代码已在GitHub开源,项目获得167个星标和5个分支 [3][4][5] - 结合此前发布的《mHC: Manifold-Constrained Hyper-Connections》研究,DeepSeek v4模型的架构设计已愈发清晰 [8] 技术创新与架构 - Engram模块的设计目标是将静态模式存储与动态计算过程从Transformer主干网络中分离并增强,对序列中每个位置依次执行检索与融合两个功能阶段 [10] - 在检索阶段,通过提取与压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量 [12] - 在融合阶段,通过上下文感知门控机制对检索到的静态嵌入进行动态调整,并用轻量级卷积操作精炼,最后与多分支架构集成 [12][14] - 该架构通过分词器压缩(将128k词表规模缩减约23%)和多头哈希等方法,解决了对所有可能N-gram组合进行参数化在计算和存储上不可行的问题 [13] 系统效率与扩展性 - Engram采用的确定性检索机制支持将参数存储与计算资源解耦,不同于MoE的动态路由,其检索索引完全由输入token序列决定,支持专门的优化策略 [15] - 在训练阶段,采用模型并行将大规模嵌入表分片分布在多GPU上,通过All-to-All通信收集激活的嵌入行,使总可用记忆容量能随加速器数量线性扩展 [17] - 在推理阶段,支持“预取-重叠”策略,可提前从主机内存异步预取嵌入向量,并利用前序Transformer层的计算缓冲来掩盖通信延迟 [17] - 利用N-gram的Zipfian分布特性,可构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而扩展到极大规模记忆容量且对延迟影响最小 [18] 性能表现与实验结果 - 在总参数量267亿、激活参数量38亿的同等条件下,Engram-27B模型在多项基准测试中性能显著优于纯MoE-27B基线模型 [8][28] - 具体性能提升包括:知识检索任务(MMLU提升+3.4、CMMLU提升+4.0)、通用推理能力(BBH提升+5.0、ARC-Challenge提升+3.7)以及代码与数学推理任务(HumanEval提升+3.0、MATH提升+2.4) [9][28] - Engram能够将静态知识重建负担从模型浅层剥离,有效加深网络用于复杂推理的有效深度,并通过释放注意力机制容量来显著提升长上下文检索能力(如Multi-Query NIAH准确率从84.2提升至97.0) [9][30] - 在包含2620亿token的语料库上预训练后,Engram-27B在大多数基准测试上超越了同等FLOPs的Dense-4B和MoE-27B模型,Engram-40B(总参数量395亿)进一步减少了预训练损失并提高了大多数基准测试的性能 [27][28][29] 扩展规律与稀疏性分配 - 研究发现MoE(条件计算)与Engram(条件记忆)之间的稀疏参数分配存在一条呈U型的最优扩展规律,用以刻画神经计算与静态记忆之间的最优权衡关系 [8][19] - 在总参数量和训练计算量固定的条件下,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能,纯MoE基准被证明是次优的 [22][23] - 定量分析显示,在100亿参数范围内,验证损失从纯MoE的1.7248改善到最优分配时的1.7109(Δ = 0.0139) [23] - 在固定MoE主干(总参数量约30亿,激活参数量5.68亿)上附加Engram表并扩展槽数,验证损失随内存槽数量增加遵循严格的幂律持续改善,表明Engram提供了可预测的扩展旋钮 [21][23] 长上下文能力分析 - Engram通过将局部依赖建模卸载至静态查找,为处理全局上下文保留了宝贵的注意力容量,从而在长文本任务中带来显著性能增益 [30] - 在严格控制基础模型能力的对比测试中,Engram-27B在等损耗设置和等计算量设置下,均在长上下文检索和推理任务上显著超越MoE-27B基准模型 [31][32][33] - 即使在仅使用约82%计算量的极端设置下,提前停止训练的Engram-27B在LongPPL指标上与完整训练的MoE-27B持平,并在RULER测试中实现超越 [33]
DeepSeek开源大模型记忆模块!梁文锋署名新论文,下一代稀疏模型提前剧透
量子位· 2026-01-13 08:39
核心观点 - DeepSeek团队提出了一种名为“条件记忆”的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1][5] - 该技术将条件记忆视为下一代稀疏模型不可或缺的建模原语 [2] - 通过将部分稀疏参数预算分配给Engram记忆模块,可以在固定计算量下显著提升模型性能,甚至在通用推理和代码数学领域带来超预期的提升 [5][34][47] 技术原理与设计 - **核心问题**:现有Transformer架构缺乏原生知识查找机制,识别静态实体(如“Diana, Princess of Wales”)需要消耗多层注意力进行低效的特征拼凑,浪费了本可用于高层推理的网络深度 [8][9][10][11][13] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度直接获取固定实体和短语的对应向量 [6][7][14][15] - **关键技术**: - 引入上下文感知的门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声 [17][18] - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [25] - 使用多个哈希函数将N-gram映射到固定大小的embedding表,解决了传统N-gram模型的存储爆炸和语义重复问题 [24][26] 性能优化与实验发现 - **稀疏性分配**:在固定总参数量和每token激活参数量的前提下,研究MoE专家与Engram记忆之间的参数分配,结果呈现U型曲线 [30][31][32] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分配给Engram记忆时,模型验证集loss达到最低 [34] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低了0.0139 [35] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间 [36] - **大规模验证**:在270亿参数规模下对比纯MoE模型与加入Engram的混合模型,所有模型激活参数量均为38亿,训练token为2620亿 [39][40] - Engram-27B模型将5.7B稀疏参数分配给Engram记忆模块 [43] - Engram-40B模型进一步将Engram记忆参数增至18.5B,总参数达39.5B [44] - **性能提升**: - **语言建模**:在验证集上,Engram-27B的loss为1.622,优于MoE-27B的1.634和Dense-4B的1.768 [48] - **知识推理**:在多项基准测试中显著提升,例如MMLU准确率从57.4提升至60.4,C-Eval从58.0提升至62.7 [48] - **通用推理与代码数学**:提升幅度超预期,BBH提升5.0分,ARC-Challenge提升3.7分,HumanEval提升3.0分,MATH提升2.4分 [47][49] - **长上下文**:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [55][56] - **效率提升原理**:Engram让模型早期层无需进行特征组合的“苦力活”,预测收敛速度更快。Engram-27B第5层的表征与MoE基线第12层的表征最相似,相当于“加深”了网络有效深度,释放的层数用于更复杂推理 [50][51] 工程实现与硬件效率 - **训练优化**:百亿级参数的词表通过拆分到多个GPU并使用All-to-All通信机制进行处理 [59] - **推理优化**:利用Engram确定性寻址的特点,可将巨大的嵌入表卸载至CPU内存,并通过PCIe异步预取使通信与GPU计算重叠,额外延迟开销控制在3%以内 [60][62][63] - 实验将1000亿参数的Engram表放在CPU内存,在H800上运行推理,4B密集模型吞吐量从9031 token/s降至8858 token/s,8B密集模型从6315 token/s降至6140 token/s [63][64] - **缓存设计**:利用N-gram访问的Zipfian分布特性,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD)以进一步压缩延迟 [65] - **设计原则**:Engram将“硬件感知效率”确立为核心设计原则,其存储与计算解耦的特性支持海量参数表的高效卸载 [66]