DeepSeek:基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术,2026报告
欧米伽未来研究所2025·2026-01-15 08:29

文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构,通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度,旨在解决当前Transformer架构缺乏原生知识查找原语的问题,从而在提升模型推理能力的同时,打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务,现有Transformer通过昂贵的运行时计算来重建静态查找表,浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念,通过对文本后缀进行哈希映射,以O(1)时间复杂度直接检索静态嵌入向量,相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦,通过在浅层网络直接检索静态知识,将主干网络解放出来以处理复杂的全局上下文和逻辑推理,从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”,在固定总参数和训练计算量下,MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块,能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数(27B)的Engram模型,在同等参数量和激活开销下,相比纯MoE-27B基线模型,在多项任务上取得全面超越:MMLU(+3.4)、CMMLU(+4.0)、通用推理BBH(+5.0)、代码生成HumanEval(+3.0)、数学解题MATH(+2.4) [4] - 在长文本处理上,Engram-27B在“大海捞针”等多查询检索任务中,准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的,允许系统在计算前一层网络时,异步地从主机内存(CPU RAM)中预取所需嵌入向量,实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下,将一个1000亿参数(100B)规模的Engram表完全卸载到主机内存,仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次,将高频知识保留在GPU显存,将长尾低频知识放入海量的CPU内存或SSD,为在有限硬件资源下部署超大规模模型开辟新路径,对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”(MoE)迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置,为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]