Workflow
U型扩展规律
icon
搜索文档
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
36氪· 2026-01-13 08:42
公司技术发布 - DeepSeek与北京大学合作发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,提出条件记忆(conditional memory)新概念,以解决现有Transformer架构缺乏原生知识查找机制的问题 [1][3] - 公司提出并实现了一个名为“Engram”的新模块,旨在与混合专家(MoE)的条件计算形成互补,相关代码已在GitHub开源,项目获得167个星标和5个分支 [3][4][5] - 结合此前发布的《mHC: Manifold-Constrained Hyper-Connections》研究,DeepSeek v4模型的架构设计已愈发清晰 [8] 技术创新与架构 - Engram模块的设计目标是将静态模式存储与动态计算过程从Transformer主干网络中分离并增强,对序列中每个位置依次执行检索与融合两个功能阶段 [10] - 在检索阶段,通过提取与压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量 [12] - 在融合阶段,通过上下文感知门控机制对检索到的静态嵌入进行动态调整,并用轻量级卷积操作精炼,最后与多分支架构集成 [12][14] - 该架构通过分词器压缩(将128k词表规模缩减约23%)和多头哈希等方法,解决了对所有可能N-gram组合进行参数化在计算和存储上不可行的问题 [13] 系统效率与扩展性 - Engram采用的确定性检索机制支持将参数存储与计算资源解耦,不同于MoE的动态路由,其检索索引完全由输入token序列决定,支持专门的优化策略 [15] - 在训练阶段,采用模型并行将大规模嵌入表分片分布在多GPU上,通过All-to-All通信收集激活的嵌入行,使总可用记忆容量能随加速器数量线性扩展 [17] - 在推理阶段,支持“预取-重叠”策略,可提前从主机内存异步预取嵌入向量,并利用前序Transformer层的计算缓冲来掩盖通信延迟 [17] - 利用N-gram的Zipfian分布特性,可构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而扩展到极大规模记忆容量且对延迟影响最小 [18] 性能表现与实验结果 - 在总参数量267亿、激活参数量38亿的同等条件下,Engram-27B模型在多项基准测试中性能显著优于纯MoE-27B基线模型 [8][28] - 具体性能提升包括:知识检索任务(MMLU提升+3.4、CMMLU提升+4.0)、通用推理能力(BBH提升+5.0、ARC-Challenge提升+3.7)以及代码与数学推理任务(HumanEval提升+3.0、MATH提升+2.4) [9][28] - Engram能够将静态知识重建负担从模型浅层剥离,有效加深网络用于复杂推理的有效深度,并通过释放注意力机制容量来显著提升长上下文检索能力(如Multi-Query NIAH准确率从84.2提升至97.0) [9][30] - 在包含2620亿token的语料库上预训练后,Engram-27B在大多数基准测试上超越了同等FLOPs的Dense-4B和MoE-27B模型,Engram-40B(总参数量395亿)进一步减少了预训练损失并提高了大多数基准测试的性能 [27][28][29] 扩展规律与稀疏性分配 - 研究发现MoE(条件计算)与Engram(条件记忆)之间的稀疏参数分配存在一条呈U型的最优扩展规律,用以刻画神经计算与静态记忆之间的最优权衡关系 [8][19] - 在总参数量和训练计算量固定的条件下,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能,纯MoE基准被证明是次优的 [22][23] - 定量分析显示,在100亿参数范围内,验证损失从纯MoE的1.7248改善到最优分配时的1.7109(Δ = 0.0139) [23] - 在固定MoE主干(总参数量约30亿,激活参数量5.68亿)上附加Engram表并扩展槽数,验证损失随内存槽数量增加遵循严格的幂律持续改善,表明Engram提供了可预测的扩展旋钮 [21][23] 长上下文能力分析 - Engram通过将局部依赖建模卸载至静态查找,为处理全局上下文保留了宝贵的注意力容量,从而在长文本任务中带来显著性能增益 [30] - 在严格控制基础模型能力的对比测试中,Engram-27B在等损耗设置和等计算量设置下,均在长上下文检索和推理任务上显著超越MoE-27B基准模型 [31][32][33] - 即使在仅使用约82%计算量的极端设置下,提前停止训练的Engram-27B在LongPPL指标上与完整训练的MoE-27B持平,并在RULER测试中实现超越 [33]