Engram（条件记忆）模块 - 财报，业绩电话会，研报，新闻

Engram（条件记忆）模块

搜索文档

华尔街见闻· 2026-01-13 19:01

文章核心观点 - DeepSeek团队提出了一种名为“Engram（条件记忆）”的全新AI模型模块，旨在将静态知识的“记忆”功能从动态“计算”中剥离，通过类似查字典的快速检索方式，释放模型的计算资源以专注于复杂推理，这代表了Transformer架构的一次重大革新 [2][3] - 该技术不仅预期能显著提升模型在知识、逻辑、数学和代码等多方面的能力，还能通过“存算分离”大幅降低对昂贵GPU显存的依赖，预示着下一代大模型（如DeepSeek V4）的发展方向 [44][52][61] 现有Transformer架构的效率瓶颈 - 研究发现，传统Transformer模型在处理静态知识（如“戴安娜王妃”）时效率低下，需要动用多达6层网络进行复杂的矩阵运算来“重建”概念，这消耗了大量本应用于高级推理的计算资源 [8][9][11] - 这种将静态知识编码在神经网络权重中的“隐式记忆”机制，迫使模型将宝贵的参数容量和网络深度浪费在简单的模式匹配上，被视为一种算力浪费 [11] Engram（条件记忆）模块的技术原理 - Engram模块的核心是一个巨大的、可扩展的嵌入表，其灵感来源于NLP领域的经典“N-gram”概念，通过哈希索引实现O(1)时间复杂度的快速知识查找，无论知识库多大，查找速度几乎不变 [15][16][18] - 该模块解决了大规模知识存储的三大挑战：通过词表归一化使有效词表缩小了23%；采用多头哈希技术提高映射鲁棒性；设计上下文感知门控，根据当前语境动态决定是否采纳检索到的静态知识，避免歧义干扰 [19][20][21][25] 模型参数分配的优化发现 - 通过大规模实验，DeepSeek团队发现了模型参数分配的“U型曲线”，当将约20%-25%的稀疏参数预算分配给Engram模块，剩余75%-80%分配给MoE（混合专家）时，模型的验证集损失达到最低点 [30] - 这一“黄金分割点”表明，对于数百亿参数的大模型，单纯增加计算单元（MoE专家）已边际效益递减，必须引入专门的静态记忆模块来实现“存算平衡” [31] Engram带来的性能提升 - 在严格控制激活参数量（3.8B）和训练数据量（262B tokens）的对比实验中，Engram-27B模型在知识类任务上显著提升：MMLU提升3.4分，CMMLU提升4.0分 [38] - 出乎意料的是，该模型在逻辑、数学和代码等推理任务上也全面超越基线：BBH（综合推理）提升5.0分，MATH（数学）提升2.4分，HumanEval（代码生成）提升3.0分，ARC-Challenge（复杂推理）提升3.7分 [39][40] 性能提升的内在机制 - 性能的全面提升归因于“有效深度”理论：Engram模块在模型早期（如第2层）就完成了静态知识检索，释放了后续网络层和注意力头，使其能全神贯注于复杂的全局推理、长程逻辑构建等高级任务 [41][42] - Engram的本质是通过“分流”记忆杂活，让模型的“大脑”专注于更高维度的思考，而非替代推理 [43] 工程与成本优势：存算分离 - Engram模块实现了彻底的“存算分离”，其查表逻辑是确定性的，允许在文本输入时即刻预知所需知识的位置 [48] - 这一特性使得庞大的Engram词表（可达千亿参数）可以被卸载到廉价的CPU内存甚至NVMe SSD上，通过异步预取技术，即使挂载100B参数的Engram表到CPU内存，相比纯GPU推理，吞吐量下降不到3% [49][50][51] - 这打破了当前AI对昂贵GPU显存（如HBM）的依赖，意味着模型的“记忆容量”可以低成本无限扩展 [52] 在长文本处理上的优势 - 在长文本处理中，Engram接管了局部信息依赖，使注意力机制能更有效地捕捉全局信息和长程关联 [55][56] - 在RULER基准测试中，Engram-27B在Multi-Query NIAH（多重针大海捞针）任务上从MoE基线的84.2分飙升至97.0分，Variable Tracking（变量追踪）从77.0分提升至89.0分 [57][58][60] 对DeepSeek V4及行业未来的展望 - 文章推测，计划于2月（春节前后）发布的DeepSeek V4很可能集成Engram技术，从而拥有更大的知识库、更强的逻辑推理和更低的推理成本 [5][61][64] - 这标志着AI行业从单纯“卷算力”、“堆参数”向架构创新转变，中国大模型公司正在重新定义下一代AI的竞赛规则 [65]

条件记忆

存算分离

Artificial Intelligence

Artificial Intelligence

DeepSeek V4

Engram（条件记忆）模块