Workflow
条件记忆
icon
搜索文档
DeepSeek:基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术,2026报告
文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构,通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度,旨在解决当前Transformer架构缺乏原生知识查找原语的问题,从而在提升模型推理能力的同时,打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务,现有Transformer通过昂贵的运行时计算来重建静态查找表,浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念,通过对文本后缀进行哈希映射,以O(1)时间复杂度直接检索静态嵌入向量,相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦,通过在浅层网络直接检索静态知识,将主干网络解放出来以处理复杂的全局上下文和逻辑推理,从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”,在固定总参数和训练计算量下,MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块,能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数(27B)的Engram模型,在同等参数量和激活开销下,相比纯MoE-27B基线模型,在多项任务上取得全面超越:MMLU(+3.4)、CMMLU(+4.0)、通用推理BBH(+5.0)、代码生成HumanEval(+3.0)、数学解题MATH(+2.4) [4] - 在长文本处理上,Engram-27B在“大海捞针”等多查询检索任务中,准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的,允许系统在计算前一层网络时,异步地从主机内存(CPU RAM)中预取所需嵌入向量,实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下,将一个1000亿参数(100B)规模的Engram表完全卸载到主机内存,仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次,将高频知识保留在GPU显存,将长尾低频知识放入海量的CPU内存或SSD,为在有限硬件资源下部署超大规模模型开辟新路径,对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”(MoE)迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置,为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]
速递 | DeepSeek又发论文了,这可能是V4核心预告,普通人的3个机会来了?
文章核心观点 - DeepSeek发布了一篇关于Engram模块的论文,该技术旨在解决Transformer架构缺乏原生记忆查找机制的核心缺陷,通过引入一个可扩展的查表模块,让AI能高效检索固定知识,从而解放计算资源用于复杂推理,这可能预示着DeepSeek V4的核心技术方向 [1][4][9][11][62][63] 一、核心问题与Engram模块技术原理 - Transformer架构将所有任务混合处理,没有区分固定知识检索和动态推理,导致效率低下,例如回答“戴安娜王妃的全名是什么?”需要动用多层神经网络进行计算 [6][7][18][20] - Engram模块为AI增加了“电子脑”或“速查手册”,采用现代化的N-gram方法,将固定知识组合(如“张仲景”、“四大发明”)存储在巨大词表中,实现快速调用 [9][10][22] - 该模块通过哈希函数映射解决传统N-gram存储爆炸问题,并通过“门控机制”根据上下文判断来解决多义性问题(如区分“Apple”是公司还是水果) [26] 二、反直觉发现:记忆模块对推理能力的提升 - 实验发现,在固定总参数量和算力下,调整MoE(混合专家模型)与Engram的分配比例,性能呈现U型曲线,最优性能出现在将20-25%的稀疏参数分配给Engram记忆模块时 [29][30][31][42] - 这一规律表明记忆无法替代计算,计算也无法高效模拟记忆,两者配合是最优解,且该U型曲线在不同规模下稳定存在,是一个可扩展的规律 [32][34] - 训练了27B参数的Engram模型,与同规模纯MoE模型对比,不仅知识类任务提升,推理、代码、数学等需要深度思考的任务性能提升更大,核心原因是Engram解放了早期神经网络层,使其能专注于复杂推理链条 [35][36] 三、对AI行业的冲击 - **冲击1:稀疏化进入“双轴时代”**:行业竞争从仅在MoE上卷效率,扩展到“条件记忆”这第二条路,可能导致OpenAI、Anthropic等巨头需要重新设计架构以跟进 [38][39] - **冲击2:硬件生态可能变化**:Engram的查表操作是确定性的,可提前预取并与计算重叠,实验将1000亿参数的Engram表放在CPU内存中,在H800 GPU上跑推理,吞吐量仅下降3%,这降低了对昂贵GPU内存的依赖,可能影响英伟达等硬件厂商 [40][41][43][44][45] - **冲击3:长上下文能力实现飞跃**:在处理超长文档任务时,准确率从八成多提升到九成多,实现了质的飞跃,因为Engram将局部依赖建模卸载给查表,释放了注意力容量去关注全局上下文,这对法律合同、医疗病历、长篇代码理解等场景意义重大 [46][47][48][49] 四、对普通人的机会方向 - **方向1:知识密集型应用迎来爆发期**:Engram能大幅优化固定知识检索的成本和速度,例如医疗、法律、教育领域的问答系统,成本可能降至原来的十分之一,速度提升十倍以上 [51][52][64] - **方向2:多语言和垂直领域微调服务**:Engram对语义相同但形式不同的token做了压缩,使128K词表的有效规模减少23%,且门控机制在中英文上表现良好,降低了多语言应用门槛,适合开发小语种客服机器人、金融风控报告生成等定制化服务 [54][55][58][72] - **方向3:长上下文应用的爆发**:Engram在长文本任务上的提升是质的飞跃,结合32K上下文窗口,能有效覆盖合同审查、医疗诊断、代码审计、学术研究等需要处理长文档的场景,为To B领域的企业服务提供了切入机会 [56][57][59][60][71][72]
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
新浪财经· 2026-01-13 20:33
核心观点 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”的新模型训练技术,旨在绕过GPU内存限制,实现参数扩展并提升成本效率 [1][3] - 该技术通过将计算与存储解耦,提升模型处理长上下文和复杂推理的效率,并在一个270亿参数的模型中验证了其有效性,使主要行业基准测试表现提升几个百分点 [4] - 行业观察指出,DeepSeek凭借其低成本、高效率的模型(如DeepSeek-R1)在全球市场,特别是新兴市场快速普及,正对美国AI公司构成竞争压力,并预计将在2025年2月中旬发布具备强大编程能力的新V4模型 [6][7] 技术突破 - 提出“基于可扩展查找的条件记忆”技术,命名为“Engram”,用以解决扩大AI模型规模时GPU高带宽内存容量有限的关键瓶颈 [3][4] - 该技术将计算与存储“解耦”,让模型更高效地“查找”基础信息,从而节省“序列深度”以用于更高层次推理 [3][4] - 在一个拥有270亿个参数的模型中验证,使主要行业基准测试的表现提升了几个百分点,并为执行计算需求更高的复杂推理保留了更多容量 [4] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,其潜在影响被比作他们自己开发的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司动态与市场影响 - DeepSeek创始人梁文锋与北京大学研究人员共同署名发表该技术论文,论文列出了14位共同作者 [1][6] - 公司去年年初发布的DeepSeek-R1大模型,使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,但实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁布拉德·史密斯警告,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势,并指出DeepSeek的技术在非洲等新兴市场快速普及 [6][7] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 外界猜测公司将在2025年春节(2月中旬)之前发布一款重要的新模型,据称是一款具备强大编程能力的新V4模型 [1][7] 行业背景与竞争格局 - 香港《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年 [4] - 此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - 行业中最大的模型拥有数万亿个参数 [6] - 在过去一年中,DeepSeek一直是中国AI领域创新的典范 [1]
DeepSeek V4诞生前夜?梁文锋署名新论文发布
华尔街见闻· 2026-01-13 19:01
文章核心观点 - DeepSeek团队提出了一种名为“Engram(条件记忆)”的全新AI模型模块,旨在将静态知识的“记忆”功能从动态“计算”中剥离,通过类似查字典的快速检索方式,释放模型的计算资源以专注于复杂推理,这代表了Transformer架构的一次重大革新 [2][3] - 该技术不仅预期能显著提升模型在知识、逻辑、数学和代码等多方面的能力,还能通过“存算分离”大幅降低对昂贵GPU显存的依赖,预示着下一代大模型(如DeepSeek V4)的发展方向 [44][52][61] 现有Transformer架构的效率瓶颈 - 研究发现,传统Transformer模型在处理静态知识(如“戴安娜王妃”)时效率低下,需要动用多达6层网络进行复杂的矩阵运算来“重建”概念,这消耗了大量本应用于高级推理的计算资源 [8][9][11] - 这种将静态知识编码在神经网络权重中的“隐式记忆”机制,迫使模型将宝贵的参数容量和网络深度浪费在简单的模式匹配上,被视为一种算力浪费 [11] Engram(条件记忆)模块的技术原理 - Engram模块的核心是一个巨大的、可扩展的嵌入表,其灵感来源于NLP领域的经典“N-gram”概念,通过哈希索引实现O(1)时间复杂度的快速知识查找,无论知识库多大,查找速度几乎不变 [15][16][18] - 该模块解决了大规模知识存储的三大挑战:通过词表归一化使有效词表缩小了23%;采用多头哈希技术提高映射鲁棒性;设计上下文感知门控,根据当前语境动态决定是否采纳检索到的静态知识,避免歧义干扰 [19][20][21][25] 模型参数分配的优化发现 - 通过大规模实验,DeepSeek团队发现了模型参数分配的“U型曲线”,当将约20%-25%的稀疏参数预算分配给Engram模块,剩余75%-80%分配给MoE(混合专家)时,模型的验证集损失达到最低点 [30] - 这一“黄金分割点”表明,对于数百亿参数的大模型,单纯增加计算单元(MoE专家)已边际效益递减,必须引入专门的静态记忆模块来实现“存算平衡” [31] Engram带来的性能提升 - 在严格控制激活参数量(3.8B)和训练数据量(262B tokens)的对比实验中,Engram-27B模型在知识类任务上显著提升:MMLU提升3.4分,CMMLU提升4.0分 [38] - 出乎意料的是,该模型在逻辑、数学和代码等推理任务上也全面超越基线:BBH(综合推理)提升5.0分,MATH(数学)提升2.4分,HumanEval(代码生成)提升3.0分,ARC-Challenge(复杂推理)提升3.7分 [39][40] 性能提升的内在机制 - 性能的全面提升归因于“有效深度”理论:Engram模块在模型早期(如第2层)就完成了静态知识检索,释放了后续网络层和注意力头,使其能全神贯注于复杂的全局推理、长程逻辑构建等高级任务 [41][42] - Engram的本质是通过“分流”记忆杂活,让模型的“大脑”专注于更高维度的思考,而非替代推理 [43] 工程与成本优势:存算分离 - Engram模块实现了彻底的“存算分离”,其查表逻辑是确定性的,允许在文本输入时即刻预知所需知识的位置 [48] - 这一特性使得庞大的Engram词表(可达千亿参数)可以被卸载到廉价的CPU内存甚至NVMe SSD上,通过异步预取技术,即使挂载100B参数的Engram表到CPU内存,相比纯GPU推理,吞吐量下降不到3% [49][50][51] - 这打破了当前AI对昂贵GPU显存(如HBM)的依赖,意味着模型的“记忆容量”可以低成本无限扩展 [52] 在长文本处理上的优势 - 在长文本处理中,Engram接管了局部信息依赖,使注意力机制能更有效地捕捉全局信息和长程关联 [55][56] - 在RULER基准测试中,Engram-27B在Multi-Query NIAH(多重针大海捞针)任务上从MoE基线的84.2分飙升至97.0分,Variable Tracking(变量追踪)从77.0分提升至89.0分 [57][58][60] 对DeepSeek V4及行业未来的展望 - 文章推测,计划于2月(春节前后)发布的DeepSeek V4很可能集成Engram技术,从而拥有更大的知识库、更强的逻辑推理和更低的推理成本 [5][61][64] - 这标志着AI行业从单纯“卷算力”、“堆参数”向架构创新转变,中国大模型公司正在重新定义下一代AI的竞赛规则 [65]
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
36氪· 2026-01-13 15:14
核心观点 - DeepSeek团队提出了一种名为“条件记忆”(Conditional Memory)的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1] - 该研究认为,语言建模包含需要深度动态计算的组合推理和检索静态知识两种不同性质的任务,而现有Transformer缺乏高效的原生知识查找机制,导致计算资源浪费 [4] - 通过将部分稀疏参数预算从混合专家(MoE)重新分配给Engram记忆模块,可以在固定计算预算下显著提升模型性能,形成一条U型最优曲线 [15][17] - 实验表明,在27B参数规模下,采用Engram的模型在知识、通用推理、代码和数学等多个领域的基准测试中均显著超越同规模纯MoE模型,甚至有效“加深”了网络推理深度 [21][23] - Engram的确定性寻址机制支持存储与计算的解耦,允许将海量参数表卸载至CPU内存,在推理时带来可忽略的额外开销,实现了硬件感知的高效设计 [27][29][31] 技术原理与设计 - **核心问题识别**:现有Transformer模型在识别如“Diana, Princess of Wales”这类实体时,需要消耗多达6层注意力进行逐层特征拼凑,本质是用昂贵的运行时计算来重建静态查找表,浪费了可用于高层推理的网络深度 [4][5] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度捕获局部依赖和静态知识 [6] - **关键创新 - Engram模块**:在Transformer层间插入Engram模块,对当前token及前几个token组成的N-gram进行哈希查找,从一个巨大的嵌入表中直接取出对应向量 [6] - **解决传统N-gram痛点**: - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [11] - 使用多个哈希函数将N-gram映射到固定大小的嵌入表,解决了存储爆炸问题,并通过多哈希头减少查找冲突 [11] - **上下文感知门控**:引入门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声,实现静态模式调用与动态计算的灵活切换 [8] 实验与性能分析 - **稀疏性分配研究**:固定总参数量和每token激活参数量,在MoE专家和Engram记忆间重新分配参数预算,实验得出一条U型曲线 [15] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分给Engram时,模型验证集loss最低 [17] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低0.0139 [17] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间(即20%-25%预算给Engram) [17] - **27B规模模型对比**:在激活参数量均为38亿、训练token均为2620亿的条件下进行对比 [18] - **Engram-27B**:总参26.7B,分配5.7B参数给Engram记忆模块 [18][22] - **Engram-40B**:总参39.5B,Engram记忆参数增至18.5B [18][22] - **性能提升结果**:与纯MoE-27B模型相比,Engram-27B在多项基准测试中取得显著提升 [21][22] - 知识密集型任务:MMLU提升3分(从57.4到60.4),CMMLU提升4.0分(从57.9到61.9),TriviaQA提升1.9分(从48.8到50.7) [21] - 通用推理任务:BBH大幅提升5.0分(从50.9到55.9),ARC-Challenge提升3.7分(从70.1到73.8),DROP提升3.3分(从55.7到59.0) [21] - 代码数学任务:HumanEval提升3.0分(从37.8到40.8),MATH提升2.4分(从28.3到30.7),GSM8K提升2.2分(从58.4到60.6) [21] - **性能提升原因分析**:Engram让模型早期层无需做特征组合的“苦力活”,从而“加深”了网络有效深度 [23] - KL散度曲线显示Engram模型预测收敛更快 [23] - CKA相似度分析表明,Engram-27B第5层的表征与MoE基线第12层的表征最相似 [23] - **扩展性与长上下文**:Engram-40B进一步增加记忆参数后,大部分任务性能持续提升,且训练后期损失仍在下降,说明记忆容量未饱和 [25] - 长上下文场景提升显著:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [25][26] 工程实现与效率 - **训练阶段**:巨大的词表参数(高达100B)需要拆分到多个GPU上,并通过All-to-All通信机制传递记忆片段 [27] - **推理优化**:利用Engram查找索引的确定性,可将巨大的嵌入表卸载到CPU内存,并通过PCIe异步预取实现通信与计算的重叠 [29] - 在H800 GPU上测试,为一个4B密集模型增加1000亿参数的CPU卸载Engram表,吞吐量从9031 token/s降至8858 token/s,额外开销在3%以内 [29] - 8B密集模型增加后,吞吐量从6315 token/s降至6140 token/s,开销同样低于3% [29] - **缓存策略**:利用N-gram访问遵循Zipfian分布的特点,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD),进一步压缩有效延迟 [30]
DeepSeek发布梁文锋署名新论文
券商中国· 2026-01-13 14:25
DeepSeek发布新论文与开源模块 - 公司于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与公司共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构来增强大型语言模型[1] - 在等参数、等算力条件下,该方法能显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] - 公司同步开源了相关记忆模块,命名为Engram[1] 论文的技术核心与影响 - 论文聚焦于大型语言模型稀疏性的新维度,即“基于可扩展查找的条件记忆”[1] - 该技术为行业提供了一种在不大幅增加计算资源消耗的前提下,提升模型多任务性能的新路径[1]
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
贝壳财经· 2026-01-13 12:41
论文发布与核心概念 - DeepSeek于1月12日晚间发布了一篇与北京大学共同完成的新论文[1] - 论文主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 论文核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一概念[2] 技术方案与架构创新 - 为实现“条件记忆”,公司提出了一个名为Engram(记忆痕迹)的模块[2] - 该模块将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支[2] - “静态模式检索”分支负责实体、固定短语等确定性知识的快速调取[2] - “动态组合推理”分支则交由Transformer架构专注完成复杂逻辑运算[2] 行业定位与未来展望 - 论文将“条件记忆”视为下一代稀疏模型不可或缺的建模原语[3] - 在业界猜测其下一代模型将于春节前发布的背景下,此篇论文或为模型方向提供了线索[3]
DeepSeek发布梁文锋署名新论文
证券时报· 2026-01-13 11:27
论文发布与技术突破 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] - DeepSeek同时开源了相关记忆模块Engram[1] 行业动态与市场关注 - AI应用概念在市场中全线爆发,掀起了涨停潮[4]
DeepSeek发布梁文锋署名新论文
证券时报· 2026-01-13 11:02
论文发布与核心技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构来增强大型语言模型[1] 技术原理与性能提升 - 新方法在模型参数总量和计算力消耗保持不变的条件下,显著提升了模型性能[1] - 性能提升主要体现在知识调用、推理、代码生成和数学任务等多个关键任务上[1] 开源与生态建设 - DeepSeek同步开源了与论文相关的记忆模块,命名为Engram[1]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
36氪· 2026-01-13 09:24
核心观点 - DeepSeek与北京大学联合发布新论文,提出了一种名为Engram的条件记忆模块,旨在解决Transformer架构缺乏原生知识查找机制的关键难题,通过将“稀疏化”应用于“记忆”而非仅“计算”,为大型语言模型开辟了一条新的技术路线[1][9][11] - Engram模块将语言建模中大量固定、局部、重复的模式(如实体名、固定搭配)交给一个可扩展的、具有近似O(1)复杂度的查表模块处理,从而将Transformer主干的注意力与深度计算资源解放出来,专注于需要组合与推理的任务[11][12][15] - 实验发现,MoE(条件计算)与Engram(条件记忆)之间存在“U形缩放定律”,需要在两者之间分配稀疏参数预算以找到最优权衡,这标志着稀疏化模型进入了“计算+记忆”双轴互补的新时代[3][33][46] - 在严格等参数、等计算量的条件下,集成Engram的模型(如Engram-27B)在知识、推理、代码、数学等广泛基准测试上全面优于传统的纯MoE基线模型,并且其收益具有结构性,能提升模型整体效率[5][38][48] - Engram的确定性检索特性使其在系统优化上具有优势,支持参数存储与计算资源的解耦,为“更大参数量、同等吞吐量”的工程实现提供了可行路径,并可能被集成到DeepSeek的下一代模型V4中[30][49][50] 技术架构与原理 - **核心设计**:Engram是一个插在Transformer中间层的可扩展条件记忆模块,其核心思想是将经典的哈希N-gram嵌入现代化,通过“暴力查表+记忆开关”的机制,为静态模式提供确定性的快速查找[16][18] - **工作流程**:模块分为检索和融合两个阶段。首先通过分词器压缩和确定性多头哈希,将局部上下文映射到静态记忆条目中;然后通过一个上下文感知的门控机制,动态决定是否采纳检索到的先验信息[20][21][25] - **门控机制验证**:可视化分析显示,Engram的门控机制能有效识别并激活处理多语言中的固定短语、命名实体等局部静态模式,证实了其按预期工作并将Transformer主干从记忆这些模式中解放出来[27][28][29] - **系统效率**:与MoE依赖隐藏状态动态路由不同,Engram的检索仅取决于输入Token序列,这种确定性支持在训练时进行模型并行,在推理时实现参数预取和计算重叠等优化策略[30][32] 实验发现与性能表现 - **U形缩放定律**:验证损失与分配给MoE的稀疏参数比例ρ之间存在一致的U型关系,证实了条件计算与条件记忆的结构互补性,纯MoE或纯Engram都不是最优解[33][37] - **内存扩展收益**:在探索范围内,扩展Engram的内存槽位数量能带来清晰且一致的验证损失改善,并遵循严格的幂律,表明其提供了一种可预测的、无需额外计算成本的扩展手段[37] - **基准测试全面领先**:在总参数26.7B、激活参数3.8B、训练Token数262B的同等设置下,Engram-27B在多个基准上全面超越MoE-27B,包括:MMLU准确率提升3.0个百分点,BBH提升5.0个百分点,HumanEval提升3.0个百分点,GSM8K提升2.2个百分点,MATH提升2.4个百分点[38][40] - **长上下文能力增强**:通过将局部依赖建模卸载给Engram,模型保留了更多注意力容量用于管理全局上下文,在长上下文扩展训练中,Engram模型在等损失或等计算量的设定下,其长程检索和推理任务性能显著优于MoE基线[41][44][45] 行业影响与未来展望 - **架构范式演进**:该研究标志着大模型稀疏化从单一的“条件计算”轴,进入了“条件计算”与“条件记忆”双轴互补的新时代,丰富了稀疏化的目标和内涵[46][47] - **潜在产品集成**:市场猜测DeepSeek即将发布的V4模型有很大概率将Engram融入其主干架构,若实现,将不仅是参数规模的提升,更可能是一次架构范式的跃迁[50][51] - **工程优化前景**:Engram的确定性查表特性非常适合系统级优化,为在保持吞吐量的前提下部署更大参数量的模型提供了新的工程思路,可能影响未来的硬件和系统设计[30][49]