核心观点 - DeepSeek与北京大学合作发布新论文,提出了一种名为“条件记忆”的新稀疏化维度,并通过引入Engram模块来实现,旨在解决当前大语言模型缺乏原生知识查找机制的问题 [1][3][4] - Engram模块与现有的混合专家模型的条件计算形成互补,在等参数量和等FLOPs条件下,其性能显著优于纯MoE基线模型,并展现出在知识检索、通用推理及代码数学任务上的全面性能提升 [8][9][11] - 研究揭示了MoE与Engram之间的最优资源分配遵循U型扩展规律,并将Engram扩展至270亿参数规模进行验证,表明条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [10][11][13] 技术方案:Engram架构 - 设计目标与流程:Engram模块旨在将静态模式存储与动态计算从Transformer主干网络中分离,其运行包含检索与融合两个阶段 [13][15] - 基于哈希的稀疏检索:通过提取和压缩当前位置的后缀N-gram,并使用确定性哈希机制以O(1)时间复杂度检索静态嵌入向量,为最大化语义密度,引入了词表投影将有效词表规模缩减约23% [15][16] - 上下文感知门控:在检索后引入了上下文感知的门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以应对哈希冲突或词项多义性带来的噪声 [17][18] - 系统效率优化:Engram的确定性检索机制支持参数存储与计算资源的解耦,在训练阶段采用模型并行将嵌入表分片,在推理阶段支持从主机内存异步预取嵌入向量以隐藏通信延迟 [19][21] - 多级缓存设计:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入缓存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持扩展到极大规模记忆容量 [22] 扩展规律与资源分配 - 核心研究问题:研究旨在探究MoE与Engram之间的最优分配比例,以及在无限记忆范式下Engram自身的扩展行为 [24][25] - U型扩展规律:实验发现验证损失与分配比例ρ之间呈现一致的U形关系,纯MoE基准被证明是次优的,将大约20%-25%的稀疏参数预算重新分配给Engram能获得最佳性能 [27][28] - 定量结果:在总参数量约100亿的规模下,验证损失从纯MoE的1.7248改善到最优分配时的1.7109,最优分配点在不同规模间稳定在ρ ≈ 75%-80% [28] - 无限内存扩展:在固定MoE主干上附加Engram表并增加槽数量,验证损失持续改善且遵循严格的幂律,表明更大的内存在不需要额外计算的情况下继续带来收益 [27][28] - 扩展效率:Engram在相同的内存预算下比OverEncoding释放了更大的扩展潜力,验证了条件记忆作为稀疏容量独立、可扩展轴的作用 [29][30] 实验结果:模型性能 - 实验设置:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,所有模型在包含2620亿token的语料库上预训练,激活参数量严格匹配 [34][35][36] - 整体性能对比:在等训练计算预算下,所有稀疏变体均显著超越密集模型Dense-4B;在等参数量和等FLOPs条件下,Engram-27B持续改进MoE-27B基准 [37][38] - 知识任务提升:Engram-27B在知识密集型任务上表现优异,例如MMLU准确率提升+3.0,CMMLU提升+4.0 [38] - 推理与代码数学任务提升:在通用推理和代码数学任务上改进更为显著,例如BBH提升+5.0,ARC-Challenge提升+3.7,HumanEval提升+3.0,MATH提升+2.4 [11][38] - 更大规模扩展:扩展到Engram-40B进一步减少了预训练损失,并提高了大多数基准测试的性能,表明扩展的记忆容量在当前token预算内尚未完全饱和 [39] 实验结果:长上下文能力 - 架构优势:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了注意力容量,从而提升长文本性能 [41] - 超越注意力机制:长文本性能与基础模型的通用建模能力内在耦合,并非仅由架构先验决定 [42] - 受控对比结果:在控制基础模型能力的前提下,Engram模块表现出显著效率增益 [43][44] - 等损耗设置:当预训练损失完全对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B,例如多查询NIAH准确率从84.2提升至97.0,变量跟踪从77.0提升至87.2 [45][46] - 等计算量设置:在等计算预算下,Engram-27B在所有长文本评估指标上均实现顶尖性能 [46] 机制分析 - 有效深度增加:分析表明,Engram能够将静态知识的重建负担从模型浅层剥离,从而有效加深网络用于复杂推理的有效深度 [11] - 注意力容量释放:通过将局部依赖关系交由查表机制处理,Engram释放了注意力机制的容量,使其更专注于全局上下文建模 [11] - 收敛速度分析:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [45] - 表示对齐分析:基于CKA的相似度热力图显示,Engram的浅层在功能上等效于MoE模型的深层,有效地增加了模型的深度 [45]
刚刚,梁文锋署名开源“记忆”模块,DeepSeek V4更细节了
程序员的那些事·2026-01-13 08:56