核心观点 - DeepSeek与北京大学联合发布新论文,提出了一种名为Engram的条件记忆模块,旨在解决Transformer架构缺乏原生知识查找机制的关键难题,通过将“稀疏化”应用于“记忆”而非仅“计算”,为大型语言模型开辟了一条新的技术路线[1][9][11] - Engram模块将语言建模中大量固定、局部、重复的模式(如实体名、固定搭配)交给一个可扩展的、具有近似O(1)复杂度的查表模块处理,从而将Transformer主干的注意力与深度计算资源解放出来,专注于需要组合与推理的任务[11][12][15] - 实验发现,MoE(条件计算)与Engram(条件记忆)之间存在“U形缩放定律”,需要在两者之间分配稀疏参数预算以找到最优权衡,这标志着稀疏化模型进入了“计算+记忆”双轴互补的新时代[3][33][46] - 在严格等参数、等计算量的条件下,集成Engram的模型(如Engram-27B)在知识、推理、代码、数学等广泛基准测试上全面优于传统的纯MoE基线模型,并且其收益具有结构性,能提升模型整体效率[5][38][48] - Engram的确定性检索特性使其在系统优化上具有优势,支持参数存储与计算资源的解耦,为“更大参数量、同等吞吐量”的工程实现提供了可行路径,并可能被集成到DeepSeek的下一代模型V4中[30][49][50] 技术架构与原理 - 核心设计:Engram是一个插在Transformer中间层的可扩展条件记忆模块,其核心思想是将经典的哈希N-gram嵌入现代化,通过“暴力查表+记忆开关”的机制,为静态模式提供确定性的快速查找[16][18] - 工作流程:模块分为检索和融合两个阶段。首先通过分词器压缩和确定性多头哈希,将局部上下文映射到静态记忆条目中;然后通过一个上下文感知的门控机制,动态决定是否采纳检索到的先验信息[20][21][25] - 门控机制验证:可视化分析显示,Engram的门控机制能有效识别并激活处理多语言中的固定短语、命名实体等局部静态模式,证实了其按预期工作并将Transformer主干从记忆这些模式中解放出来[27][28][29] - 系统效率:与MoE依赖隐藏状态动态路由不同,Engram的检索仅取决于输入Token序列,这种确定性支持在训练时进行模型并行,在推理时实现参数预取和计算重叠等优化策略[30][32] 实验发现与性能表现 - U形缩放定律:验证损失与分配给MoE的稀疏参数比例ρ之间存在一致的U型关系,证实了条件计算与条件记忆的结构互补性,纯MoE或纯Engram都不是最优解[33][37] - 内存扩展收益:在探索范围内,扩展Engram的内存槽位数量能带来清晰且一致的验证损失改善,并遵循严格的幂律,表明其提供了一种可预测的、无需额外计算成本的扩展手段[37] - 基准测试全面领先:在总参数26.7B、激活参数3.8B、训练Token数262B的同等设置下,Engram-27B在多个基准上全面超越MoE-27B,包括:MMLU准确率提升3.0个百分点,BBH提升5.0个百分点,HumanEval提升3.0个百分点,GSM8K提升2.2个百分点,MATH提升2.4个百分点[38][40] - 长上下文能力增强:通过将局部依赖建模卸载给Engram,模型保留了更多注意力容量用于管理全局上下文,在长上下文扩展训练中,Engram模型在等损失或等计算量的设定下,其长程检索和推理任务性能显著优于MoE基线[41][44][45] 行业影响与未来展望 - 架构范式演进:该研究标志着大模型稀疏化从单一的“条件计算”轴,进入了“条件计算”与“条件记忆”双轴互补的新时代,丰富了稀疏化的目标和内涵[46][47] - 潜在产品集成:市场猜测DeepSeek即将发布的V4模型有很大概率将Engram融入其主干架构,若实现,将不仅是参数规模的提升,更可能是一次架构范式的跃迁[50][51] - 工程优化前景:Engram的确定性查表特性非常适合系统级优化,为在保持吞吐量的前提下部署更大参数量的模型提供了新的工程思路,可能影响未来的硬件和系统设计[30][49]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷