大语言模型 - 财报，业绩电话会，研报，新闻

大语言模型

搜索文档

AI前线· 2026-01-13 06:41

DeepSeek发布Engram技术成果 - 公司DeepSeek于今日凌晨在GitHub官方仓库开源了新论文与模块Engram，论文题为“Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”，公司创始人梁文锋再次出现在合著者名单中 [2] - 该方法提出了一种新的“查—算分离”机制，通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [5] - 代码与论文全文均已开源，论文与代码地址已公布 [6] Engram技术提出的背景与动机 - 当前主流大语言模型架构基于Transformer和MoE结构，MoE通过动态路由机制降低计算成本并扩展任务容量，DeepSeek自家系列模型也采用了先进的MoE方法 [8] - 在传统架构中，模型参数同时承担事实性记忆和逻辑推理与计算两种角色，这导致为增加知识记忆而增加参数量时，计算量会同步激增，MoE专家在处理“死记硬背”任务时依然不够高效 [9] - 神经网络用高昂的矩阵运算模拟简单的“查表检索”是一种浪费，Engram旨在实现“该查表的查表，该算的算”，以解决此困境 [9] Engram的核心思想与架构设计 - “Engram”一词源自神经科学，意为“记忆痕迹”，它是一个可扩展、可查找的记忆模块，用于语言模型在推理过程中检索过去可能已见过的模式或片段 [10] - 核心技术之一是现代化的哈希N-Gram嵌入，它对输入的Token序列进行N-Gram切片，并利用哈希算法将这些片段映射到一个巨大的、可学习的查找表中 [11][13] - 由于采用哈希索引，查找是确定性且O(1)时间复杂度的，这意味着无论存储多少记忆片段，检索速度几乎恒定且算力消耗极低 [13] - 该设计将一部分“记忆职责”从深度神经计算中卸载出来，使得模型拥有活跃神经通道处理复杂计算，也有静态记忆通道高效处理固定模式，这被称为“稀疏性的新轴” [14] - Engram具备条件记忆功能，会根据当前上下文的隐向量来决定提取哪些记忆，在架构设计上，Engram模块位于Transformer层的早期阶段，负责“模式重构” [14] Engram与MoE的关系及协同系统 - Engram提供了一个新的稀疏性轴，与MoE的条件计算不同，它通过条件查找提供静态记忆容量 [15] - 两者在目标、计算方式、优化方向和作用位置上存在区别：MoE目标为条件激活神经专家，计算方式为无极dense计算/激活部分专家，优化方向为降低活跃神经计算量，作用位置在深层推理；Engram目标为条件触发静态记忆查找，计算方式为O(1)查表，优化方向为减少神经计算重建已知模式，作用位置在早期模式重建/记忆检索 [16] - DeepSeek将Engram与MoE结合形成双系统：Engram模块负责海量知识点的“存储与快速检索”，MoE专家则摆脱记忆负担，全身心投入“逻辑推理与合成” [16] - 这种分工极大地优化了参数效率，在27B的实验模型中，Engram模块可以占用大量参数用于记忆，但在实际推理时只消耗极少的计算量 [16] Engram模型的性能表现 - 在多项基准测试中，Engram模型相比同参数规模模型展现出性能提升 [17] - 在27B参数规模下，Engram-27B模型在MMLU上的准确率为60.4%，高于MoE-27B的57.4%和Dense-4B的48.6% [17] - 在知识推理任务上，Engram-27B在ARC-Challenge上的准确率为73.8%，高于MoE-27B的70.1% [17] - 在代码与数学任务上，Engram-27B在GSM8K上的准确率为60.6%，高于MoE-27B的58.4% [17] - 随着参数增加至40B，Engram-40B在多项任务上性能继续提升，例如MMLU准确率达60.6%，ARC-Challenge准确率达76.4% [17] 行业与社区反响 - 在Reddit、X等平台，Engram的技术核心受到用户肯定，被认为让模型架构处理“记忆模式查找”和“神经计算推理”职责分离，开启了新的稀疏性方向 [18] - 有用户评论指出，Engram增加了静态记忆作为补充的稀疏性轴，查找复杂度为O(1)，并发现MoE和Engram之间存在U形缩放规律，这指导着如何在两者之间分配容量 [19] - 有用户对基于n-gram lookup的O(1)查找机制表示兴趣，认为即便在不依赖GPU的环境下也能实现，让开发者对本地部署大模型功能有了更实际的期待 [20] - 专家群体开始从纯参数扩张思维转向更“智能”的架构设计，包括查表式模块和神经网络的协同，这种设计被认为是对传统NLP技术的现代化转换，具有较高的可行性和实用性 [21] - 社区评论指出，Engram很可能是DeepSeek即将发布的V4模型的核心技术基础，业内观察者认为该模块可能会成为DeepSeek V4的重要组成部分，预示下一代模型会在记忆和推理协同上实现架构级提升 [22][23] - 有网友表示，Meta之前也有过类似想法，但用到的技术不同 [26]