DeepSeek开源大模型记忆模块！梁文锋署名新论文，下一代稀疏模型提前剧透

核心观点 - DeepSeek团队提出了一种名为“条件记忆”的全新建模范式，并给出了具体实现方案Engram模块，旨在为Transformer架构补上原生的知识查找机制 [1][5] - 该技术将条件记忆视为下一代稀疏模型不可或缺的建模原语 [2] - 通过将部分稀疏参数预算分配给Engram记忆模块，可以在固定计算量下显著提升模型性能，甚至在通用推理和代码数学领域带来超预期的提升 [5][34][47] 技术原理与设计 - 核心问题：现有Transformer架构缺乏原生知识查找机制，识别静态实体（如“Diana, Princess of Wales”）需要消耗多层注意力进行低效的特征拼凑，浪费了本可用于高层推理的网络深度 [8][9][10][11][13] - 解决方案：回归查表思想，将经典的N-gram方法嵌入Transformer，通过哈希查找以O(1)时间复杂度直接获取固定实体和短语的对应向量 [6][7][14][15] - 关键技术： - 引入上下文感知的门控机制，用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度，自动屏蔽噪声 [17][18] - 通过压缩tokenizer，将语义相同但形式不同的token归为一类，使128k词表的有效规模减少23% [25] - 使用多个哈希函数将N-gram映射到固定大小的embedding表，解决了传统N-gram模型的存储爆炸和语义重复问题 [24][26] 性能优化与实验发现 - 稀疏性分配：在固定总参数量和每token激活参数量的前提下，研究MoE专家与Engram记忆之间的参数分配，结果呈现U型曲线 [30][31][32] - 纯MoE并非最优，将约20%到25%的稀疏参数预算分配给Engram记忆时，模型验证集loss达到最低 [34] - 在100亿参数规模下，最优配置比纯MoE基线的loss降低了0.0139 [35] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间 [36] - 大规模验证：在270亿参数规模下对比纯MoE模型与加入Engram的混合模型，所有模型激活参数量均为38亿，训练token为2620亿 [39][40] - Engram-27B模型将5.7B稀疏参数分配给Engram记忆模块 [43] - Engram-40B模型进一步将Engram记忆参数增至18.5B，总参数达39.5B [44] - 性能提升： - 语言建模：在验证集上，Engram-27B的loss为1.622，优于MoE-27B的1.634和Dense-4B的1.768 [48] - 知识推理：在多项基准测试中显著提升，例如MMLU准确率从57.4提升至60.4，C-Eval从58.0提升至62.7 [48] - 通用推理与代码数学：提升幅度超预期，BBH提升5.0分，ARC-Challenge提升3.7分，HumanEval提升3.0分，MATH提升2.4分 [47][49] - 长上下文：在RULER测试集上，Multi-Query NIAH准确率从84.2跃升至97.0，Variable Tracking从77.0提升至89.0 [55][56] - 效率提升原理：Engram让模型早期层无需进行特征组合的“苦力活”，预测收敛速度更快。Engram-27B第5层的表征与MoE基线第12层的表征最相似，相当于“加深”了网络有效深度，释放的层数用于更复杂推理 [50][51] 工程实现与硬件效率 - 训练优化：百亿级参数的词表通过拆分到多个GPU并使用All-to-All通信机制进行处理 [59] - 推理优化：利用Engram确定性寻址的特点，可将巨大的嵌入表卸载至CPU内存，并通过PCIe异步预取使通信与GPU计算重叠，额外延迟开销控制在3%以内 [60][62][63] - 实验将1000亿参数的Engram表放在CPU内存，在H800上运行推理，4B密集模型吞吐量从9031 token/s降至8858 token/s，8B密集模型从6315 token/s降至6140 token/s [63][64] - 缓存设计：利用N-gram访问的Zipfian分布特性，可设计多级缓存（高频放GPU显存、中频放CPU内存、长尾放NVMe SSD）以进一步压缩延迟 [65] - 设计原则：Engram将“硬件感知效率”确立为核心设计原则，其存储与计算解耦的特性支持海量参数表的高效卸载 [66]