Engram(条件记忆)模块
搜索文档
DeepSeek V4诞生前夜?梁文锋署名新论文发布
华尔街见闻· 2026-01-13 19:01
文章核心观点 - DeepSeek团队提出了一种名为“Engram(条件记忆)”的全新AI模型模块,旨在将静态知识的“记忆”功能从动态“计算”中剥离,通过类似查字典的快速检索方式,释放模型的计算资源以专注于复杂推理,这代表了Transformer架构的一次重大革新 [2][3] - 该技术不仅预期能显著提升模型在知识、逻辑、数学和代码等多方面的能力,还能通过“存算分离”大幅降低对昂贵GPU显存的依赖,预示着下一代大模型(如DeepSeek V4)的发展方向 [44][52][61] 现有Transformer架构的效率瓶颈 - 研究发现,传统Transformer模型在处理静态知识(如“戴安娜王妃”)时效率低下,需要动用多达6层网络进行复杂的矩阵运算来“重建”概念,这消耗了大量本应用于高级推理的计算资源 [8][9][11] - 这种将静态知识编码在神经网络权重中的“隐式记忆”机制,迫使模型将宝贵的参数容量和网络深度浪费在简单的模式匹配上,被视为一种算力浪费 [11] Engram(条件记忆)模块的技术原理 - Engram模块的核心是一个巨大的、可扩展的嵌入表,其灵感来源于NLP领域的经典“N-gram”概念,通过哈希索引实现O(1)时间复杂度的快速知识查找,无论知识库多大,查找速度几乎不变 [15][16][18] - 该模块解决了大规模知识存储的三大挑战:通过词表归一化使有效词表缩小了23%;采用多头哈希技术提高映射鲁棒性;设计上下文感知门控,根据当前语境动态决定是否采纳检索到的静态知识,避免歧义干扰 [19][20][21][25] 模型参数分配的优化发现 - 通过大规模实验,DeepSeek团队发现了模型参数分配的“U型曲线”,当将约20%-25%的稀疏参数预算分配给Engram模块,剩余75%-80%分配给MoE(混合专家)时,模型的验证集损失达到最低点 [30] - 这一“黄金分割点”表明,对于数百亿参数的大模型,单纯增加计算单元(MoE专家)已边际效益递减,必须引入专门的静态记忆模块来实现“存算平衡” [31] Engram带来的性能提升 - 在严格控制激活参数量(3.8B)和训练数据量(262B tokens)的对比实验中,Engram-27B模型在知识类任务上显著提升:MMLU提升3.4分,CMMLU提升4.0分 [38] - 出乎意料的是,该模型在逻辑、数学和代码等推理任务上也全面超越基线:BBH(综合推理)提升5.0分,MATH(数学)提升2.4分,HumanEval(代码生成)提升3.0分,ARC-Challenge(复杂推理)提升3.7分 [39][40] 性能提升的内在机制 - 性能的全面提升归因于“有效深度”理论:Engram模块在模型早期(如第2层)就完成了静态知识检索,释放了后续网络层和注意力头,使其能全神贯注于复杂的全局推理、长程逻辑构建等高级任务 [41][42] - Engram的本质是通过“分流”记忆杂活,让模型的“大脑”专注于更高维度的思考,而非替代推理 [43] 工程与成本优势:存算分离 - Engram模块实现了彻底的“存算分离”,其查表逻辑是确定性的,允许在文本输入时即刻预知所需知识的位置 [48] - 这一特性使得庞大的Engram词表(可达千亿参数)可以被卸载到廉价的CPU内存甚至NVMe SSD上,通过异步预取技术,即使挂载100B参数的Engram表到CPU内存,相比纯GPU推理,吞吐量下降不到3% [49][50][51] - 这打破了当前AI对昂贵GPU显存(如HBM)的依赖,意味着模型的“记忆容量”可以低成本无限扩展 [52] 在长文本处理上的优势 - 在长文本处理中,Engram接管了局部信息依赖,使注意力机制能更有效地捕捉全局信息和长程关联 [55][56] - 在RULER基准测试中,Engram-27B在Multi-Query NIAH(多重针大海捞针)任务上从MoE基线的84.2分飙升至97.0分,Variable Tracking(变量追踪)从77.0分提升至89.0分 [57][58][60] 对DeepSeek V4及行业未来的展望 - 文章推测,计划于2月(春节前后)发布的DeepSeek V4很可能集成Engram技术,从而拥有更大的知识库、更强的逻辑推理和更低的推理成本 [5][61][64] - 这标志着AI行业从单纯“卷算力”、“堆参数”向架构创新转变,中国大模型公司正在重新定义下一代AI的竞赛规则 [65]