条件记忆
搜索文档
大摩眼中的DeepSeek:以存代算、以少胜多
36氪· 2026-01-22 17:09
文章核心观点 - DeepSeek通过创新的“Engram”模块和“条件记忆”机制,正在改变大语言模型的构建方式,其核心在于将存储与计算分离,从而减少对昂贵高带宽内存的依赖,转而利用性价比更高的普通系统内存,这代表了下一代AI发展的关键方向,即通过更聪明的混合架构而非单纯堆砌算力来提升效率[1] 技术架构创新:Engram模块与条件记忆 - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理如“伦敦在英国”的简单查询也需要经过多层注意力机制和前馈网络的昂贵计算,浪费GPU资源[3] - DeepSeek引入“条件记忆”原则和Engram模块,将静态模式存储与动态推理分离,将模型的“图书馆”或“字典”卸载到CPU或系统内存中,仅在需要时检索[3] - 这种设计为大语言模型解锁了新的效率水平,Engram是一种在不重载HBM的情况下高效“查找”基本信息的方法,从而释放HBM容量用于更复杂的推理任务[3] - 该架构直接解决了AI基础设施中最昂贵的HBM瓶颈,在现有硬件架构下提升效率,可减少昂贵的硬件升级需求[3] 硬件成本结构重塑:降低HBM依赖,放大DRAM价值 - Engram架构通过将静态存储与动态计算分离,最大限度地减少了对高速内存的需求,基础设施成本可能从昂贵的GPU向更具性价比的DRAM转移[5] - 一个1000亿参数的Engram模型,在FP16/BF16格式下每个参数2字节,意味着最低需要约200GB的系统DRAM[5] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13%[5] - 投资逻辑转向:计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能”;内存的价值已延伸至计算之外[5] 中国AI的竞争态势:约束诱导的创新 - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年中迅速缩窄了与全球前沿模型的性能差距[6] - DeepSeek V3.2在标准化基准测试中表现优异:MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力[6] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能不是来自更多的GPU,而是来自学会在约束条件下思考[6] - 中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新[7] 未来展望与市场影响 - 利用Engram内存架构,DeepSeek下一代模型V4在发布时将实现重大飞跃,特别是在编码和推理方面[7] - 该模型极有可能在消费级硬件上运行,消费级硬件可能就足够了,这意味着高水平AI推理的边际成本将进一步降低,使AI应用能更广泛部署[7] - 摩根士丹利重申了对中国内存和半导体设备本土化主题的看好[7] - 通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的大语言模型,其市场支出和采用势头表明上行空间可能被低估[7]
大摩眼中的DeepSeek:以存代算、以少胜多!
硬AI· 2026-01-22 15:34
核心观点 - DeepSeek通过其独创的Engram架构与“条件记忆”机制,将存储与计算分离,用高性价比的DRAM置换稀缺的HBM资源,正在改写AI的扩展法则,证明下一代AI的制胜点在于高效的混合架构而非暴力堆砌GPU [2][3][4] 技术架构:Engram模块与“条件记忆” - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理“伦敦在英国”这类简单查询也需要昂贵的计算 [8] - Engram模块的核心是引入“条件记忆”原则,将静态模式存储与动态推理分离,将模型的静态知识卸载到CPU或系统DRAM中,仅在需要时检索 [9] - 该设计为大语言模型解锁了新的效率水平,是一种无需重载HBM即可高效查找基本信息的方法,从而释放HBM容量用于更复杂的推理任务 [9] - 该架构直接解决了AI基础设施中最昂贵的瓶颈——HBM,通过在现有硬件架构下提升效率,减少昂贵的硬件升级需求 [9] 基础设施经济学影响 - Engram架构通过分离存储与计算,最大程度减少对高速HBM的需求,可能导致基础设施成本从昂贵的GPU向更具性价比的DRAM转移 [12] - 一个1000亿参数的Engram模型(假设FP16/BF16下每个参数2字节)最低需要约200GB的系统DRAM [12] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13% [12] - 投资逻辑转变:成本结构可能从GPU向内存转移;计算适中但内存巨大的配置可能提供更高的“每美元性能”;内存的价值已延伸至计算之外 [13][14][15] 中国AI的“约束诱导创新” - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年迅速缩小了与全球前沿模型的性能差距 [17] - DeepSeek V3.2在MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力 [17] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能来自学会在约束条件下思考,而非更多GPU [17] - 中国AI的进步可能越来越取决于绕过硬件瓶颈的算法和系统级创新,而非直接缩小硬件差距 [18] 未来展望与硬件门槛降低 - 利用Engram内存架构,DeepSeek下一代模型V4预计在发布时将实现重大飞跃,特别是在编码和推理方面 [20] - 该模型极有可能在消费级硬件上运行,消费级硬件(如RTX 5090)可能就足够,这将进一步降低高水平AI推理的边际成本 [20] - AI应用将能够更广泛地部署,无需完全依赖昂贵的数据中心级GPU集群 [20] - 通过将内存与计算解耦,中国正在构建更聪明且结构更高效的大语言模型,其AI市场的支出和采用势头表明上行空间可能被低估 [21]
传DeepSeek曝新模型,梁文锋再放“王炸”?
新浪财经· 2026-01-21 15:55
下一代模型发布预期与线索 - 在R1发布一周年之际,DeepSeek的代码库更新中意外曝光了一个名为“Model1”的新模型,该模型拥有与DeepSeek-V3.2并列的独立文件,可能意味着其未沿用V3系列架构,是一条全新的技术路径[1][6] - 业界推测公司可能在今年春节复刻去年发布R1的“核爆”式发布,主要线索包括:外媒报道称DeepSeek预计将于2月中旬推出下一代人工智能模型V4[3][8],以及2025年底至2026年初公司发表了两篇关键论文为下一代模型扫清技术障碍[5][10] - 根据The Information报道,有DeepSeek员工的内部测试表明,V4在编码任务方面可以胜过Anthropic的Claude和OpenAI的GPT系列等竞争对手[4][9] 近期模型迭代与性能提升 - 自2025年3月以来,公司以“小步快跑”方式持续迭代V3模型,重点优化复杂推理、编程能力和工具调用[3][8] - 2025年3月25日,DeepSeek V3升级为V3-0324,生成的代码可用性更高,中文写作升级,在数学、代码能力上超过GPT-4.5[4][9] - 2025年5月29日,DeepSeek-R1完成小版本升级,更新后的模型在数学、编程与通用逻辑上已接近o3与Gemini-2.5-Pro,幻觉率降低了45~50%左右[4][9] - 2025年8月21日发布DeepSeek-V3.1,相比R1能在更短时间内给出答案,有更强的Agent能力,API接口调用价格为输入0.5元/百万tokens(缓存命中)、4元/百万tokens(缓存未命中),输出12元/百万tokens[4][9] - 2025年9月29日发布DeepSeek-V3.2-Exp,引入了DeepSeek Sparse Attention(一种稀疏注意力机制),API接口调用价格降至输入0.2元/百万tokens(缓存命中)、2元/百万tokens(缓存未命中),输出3元/百万tokens[4][9] - 2025年12月1日发布DeepSeek-V3.2正式版,其推理能力达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,并将思考融入工具使用的模型,同时支持思考与非思考模式的工具调用[4][9] 下一代模型的关键技术突破 - 公司于2025年12月底至2026年1月发表了两篇有梁文锋署名的论文,旨在解决大模型基础架构中训练稳定性与知识检索效率两大瓶颈[5][10] - 论文《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架,通过数学上的流形投影将残差连接空间约束在特定流形上,在保留强大表达能力的同时强制恢复网络的恒等映射特性,从根源上保障训练稳定性[5][10] - 与北大合作的论文《Conditional Memory via Scalable Lookup》提出了“条件记忆”模块(Engram),将高频静态知识以嵌入表形式注入Transformer层,通过解耦知识存储与神经计算,证明用基于哈希的查找表替代约20%的混合专家(MoE)参数,可显著提升推理与知识任务性能[5][11]
DeepSeek:基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术,2026报告
欧米伽未来研究所2025· 2026-01-15 08:29
文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构,通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度,旨在解决当前Transformer架构缺乏原生知识查找原语的问题,从而在提升模型推理能力的同时,打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务,现有Transformer通过昂贵的运行时计算来重建静态查找表,浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念,通过对文本后缀进行哈希映射,以O(1)时间复杂度直接检索静态嵌入向量,相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦,通过在浅层网络直接检索静态知识,将主干网络解放出来以处理复杂的全局上下文和逻辑推理,从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”,在固定总参数和训练计算量下,MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块,能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数(27B)的Engram模型,在同等参数量和激活开销下,相比纯MoE-27B基线模型,在多项任务上取得全面超越:MMLU(+3.4)、CMMLU(+4.0)、通用推理BBH(+5.0)、代码生成HumanEval(+3.0)、数学解题MATH(+2.4) [4] - 在长文本处理上,Engram-27B在“大海捞针”等多查询检索任务中,准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的,允许系统在计算前一层网络时,异步地从主机内存(CPU RAM)中预取所需嵌入向量,实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下,将一个1000亿参数(100B)规模的Engram表完全卸载到主机内存,仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次,将高频知识保留在GPU显存,将长尾低频知识放入海量的CPU内存或SSD,为在有限硬件资源下部署超大规模模型开辟新路径,对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”(MoE)迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置,为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]
速递 | DeepSeek又发论文了,这可能是V4核心预告,普通人的3个机会来了?
未可知人工智能研究院· 2026-01-14 11:02
文章核心观点 - DeepSeek发布了一篇关于Engram模块的论文,该技术旨在解决Transformer架构缺乏原生记忆查找机制的核心缺陷,通过引入一个可扩展的查表模块,让AI能高效检索固定知识,从而解放计算资源用于复杂推理,这可能预示着DeepSeek V4的核心技术方向 [1][4][9][11][62][63] 一、核心问题与Engram模块技术原理 - Transformer架构将所有任务混合处理,没有区分固定知识检索和动态推理,导致效率低下,例如回答“戴安娜王妃的全名是什么?”需要动用多层神经网络进行计算 [6][7][18][20] - Engram模块为AI增加了“电子脑”或“速查手册”,采用现代化的N-gram方法,将固定知识组合(如“张仲景”、“四大发明”)存储在巨大词表中,实现快速调用 [9][10][22] - 该模块通过哈希函数映射解决传统N-gram存储爆炸问题,并通过“门控机制”根据上下文判断来解决多义性问题(如区分“Apple”是公司还是水果) [26] 二、反直觉发现:记忆模块对推理能力的提升 - 实验发现,在固定总参数量和算力下,调整MoE(混合专家模型)与Engram的分配比例,性能呈现U型曲线,最优性能出现在将20-25%的稀疏参数分配给Engram记忆模块时 [29][30][31][42] - 这一规律表明记忆无法替代计算,计算也无法高效模拟记忆,两者配合是最优解,且该U型曲线在不同规模下稳定存在,是一个可扩展的规律 [32][34] - 训练了27B参数的Engram模型,与同规模纯MoE模型对比,不仅知识类任务提升,推理、代码、数学等需要深度思考的任务性能提升更大,核心原因是Engram解放了早期神经网络层,使其能专注于复杂推理链条 [35][36] 三、对AI行业的冲击 - **冲击1:稀疏化进入“双轴时代”**:行业竞争从仅在MoE上卷效率,扩展到“条件记忆”这第二条路,可能导致OpenAI、Anthropic等巨头需要重新设计架构以跟进 [38][39] - **冲击2:硬件生态可能变化**:Engram的查表操作是确定性的,可提前预取并与计算重叠,实验将1000亿参数的Engram表放在CPU内存中,在H800 GPU上跑推理,吞吐量仅下降3%,这降低了对昂贵GPU内存的依赖,可能影响英伟达等硬件厂商 [40][41][43][44][45] - **冲击3:长上下文能力实现飞跃**:在处理超长文档任务时,准确率从八成多提升到九成多,实现了质的飞跃,因为Engram将局部依赖建模卸载给查表,释放了注意力容量去关注全局上下文,这对法律合同、医疗病历、长篇代码理解等场景意义重大 [46][47][48][49] 四、对普通人的机会方向 - **方向1:知识密集型应用迎来爆发期**:Engram能大幅优化固定知识检索的成本和速度,例如医疗、法律、教育领域的问答系统,成本可能降至原来的十分之一,速度提升十倍以上 [51][52][64] - **方向2:多语言和垂直领域微调服务**:Engram对语义相同但形式不同的token做了压缩,使128K词表的有效规模减少23%,且门控机制在中英文上表现良好,降低了多语言应用门槛,适合开发小语种客服机器人、金融风控报告生成等定制化服务 [54][55][58][72] - **方向3:长上下文应用的爆发**:Engram在长文本任务上的提升是质的飞跃,结合32K上下文窗口,能有效覆盖合同审查、医疗诊断、代码审计、学术研究等需要处理长文档的场景,为To B领域的企业服务提供了切入机会 [56][57][59][60][71][72]
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
新浪财经· 2026-01-13 20:33
核心观点 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”的新模型训练技术,旨在绕过GPU内存限制,实现参数扩展并提升成本效率 [1][3] - 该技术通过将计算与存储解耦,提升模型处理长上下文和复杂推理的效率,并在一个270亿参数的模型中验证了其有效性,使主要行业基准测试表现提升几个百分点 [4] - 行业观察指出,DeepSeek凭借其低成本、高效率的模型(如DeepSeek-R1)在全球市场,特别是新兴市场快速普及,正对美国AI公司构成竞争压力,并预计将在2025年2月中旬发布具备强大编程能力的新V4模型 [6][7] 技术突破 - 提出“基于可扩展查找的条件记忆”技术,命名为“Engram”,用以解决扩大AI模型规模时GPU高带宽内存容量有限的关键瓶颈 [3][4] - 该技术将计算与存储“解耦”,让模型更高效地“查找”基础信息,从而节省“序列深度”以用于更高层次推理 [3][4] - 在一个拥有270亿个参数的模型中验证,使主要行业基准测试的表现提升了几个百分点,并为执行计算需求更高的复杂推理保留了更多容量 [4] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,其潜在影响被比作他们自己开发的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司动态与市场影响 - DeepSeek创始人梁文锋与北京大学研究人员共同署名发表该技术论文,论文列出了14位共同作者 [1][6] - 公司去年年初发布的DeepSeek-R1大模型,使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,但实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁布拉德·史密斯警告,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势,并指出DeepSeek的技术在非洲等新兴市场快速普及 [6][7] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 外界猜测公司将在2025年春节(2月中旬)之前发布一款重要的新模型,据称是一款具备强大编程能力的新V4模型 [1][7] 行业背景与竞争格局 - 香港《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年 [4] - 此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - 行业中最大的模型拥有数万亿个参数 [6] - 在过去一年中,DeepSeek一直是中国AI领域创新的典范 [1]
DeepSeek V4诞生前夜?梁文锋署名新论文发布
华尔街见闻· 2026-01-13 19:01
文章核心观点 - DeepSeek团队提出了一种名为“Engram(条件记忆)”的全新AI模型模块,旨在将静态知识的“记忆”功能从动态“计算”中剥离,通过类似查字典的快速检索方式,释放模型的计算资源以专注于复杂推理,这代表了Transformer架构的一次重大革新 [2][3] - 该技术不仅预期能显著提升模型在知识、逻辑、数学和代码等多方面的能力,还能通过“存算分离”大幅降低对昂贵GPU显存的依赖,预示着下一代大模型(如DeepSeek V4)的发展方向 [44][52][61] 现有Transformer架构的效率瓶颈 - 研究发现,传统Transformer模型在处理静态知识(如“戴安娜王妃”)时效率低下,需要动用多达6层网络进行复杂的矩阵运算来“重建”概念,这消耗了大量本应用于高级推理的计算资源 [8][9][11] - 这种将静态知识编码在神经网络权重中的“隐式记忆”机制,迫使模型将宝贵的参数容量和网络深度浪费在简单的模式匹配上,被视为一种算力浪费 [11] Engram(条件记忆)模块的技术原理 - Engram模块的核心是一个巨大的、可扩展的嵌入表,其灵感来源于NLP领域的经典“N-gram”概念,通过哈希索引实现O(1)时间复杂度的快速知识查找,无论知识库多大,查找速度几乎不变 [15][16][18] - 该模块解决了大规模知识存储的三大挑战:通过词表归一化使有效词表缩小了23%;采用多头哈希技术提高映射鲁棒性;设计上下文感知门控,根据当前语境动态决定是否采纳检索到的静态知识,避免歧义干扰 [19][20][21][25] 模型参数分配的优化发现 - 通过大规模实验,DeepSeek团队发现了模型参数分配的“U型曲线”,当将约20%-25%的稀疏参数预算分配给Engram模块,剩余75%-80%分配给MoE(混合专家)时,模型的验证集损失达到最低点 [30] - 这一“黄金分割点”表明,对于数百亿参数的大模型,单纯增加计算单元(MoE专家)已边际效益递减,必须引入专门的静态记忆模块来实现“存算平衡” [31] Engram带来的性能提升 - 在严格控制激活参数量(3.8B)和训练数据量(262B tokens)的对比实验中,Engram-27B模型在知识类任务上显著提升:MMLU提升3.4分,CMMLU提升4.0分 [38] - 出乎意料的是,该模型在逻辑、数学和代码等推理任务上也全面超越基线:BBH(综合推理)提升5.0分,MATH(数学)提升2.4分,HumanEval(代码生成)提升3.0分,ARC-Challenge(复杂推理)提升3.7分 [39][40] 性能提升的内在机制 - 性能的全面提升归因于“有效深度”理论:Engram模块在模型早期(如第2层)就完成了静态知识检索,释放了后续网络层和注意力头,使其能全神贯注于复杂的全局推理、长程逻辑构建等高级任务 [41][42] - Engram的本质是通过“分流”记忆杂活,让模型的“大脑”专注于更高维度的思考,而非替代推理 [43] 工程与成本优势:存算分离 - Engram模块实现了彻底的“存算分离”,其查表逻辑是确定性的,允许在文本输入时即刻预知所需知识的位置 [48] - 这一特性使得庞大的Engram词表(可达千亿参数)可以被卸载到廉价的CPU内存甚至NVMe SSD上,通过异步预取技术,即使挂载100B参数的Engram表到CPU内存,相比纯GPU推理,吞吐量下降不到3% [49][50][51] - 这打破了当前AI对昂贵GPU显存(如HBM)的依赖,意味着模型的“记忆容量”可以低成本无限扩展 [52] 在长文本处理上的优势 - 在长文本处理中,Engram接管了局部信息依赖,使注意力机制能更有效地捕捉全局信息和长程关联 [55][56] - 在RULER基准测试中,Engram-27B在Multi-Query NIAH(多重针大海捞针)任务上从MoE基线的84.2分飙升至97.0分,Variable Tracking(变量追踪)从77.0分提升至89.0分 [57][58][60] 对DeepSeek V4及行业未来的展望 - 文章推测,计划于2月(春节前后)发布的DeepSeek V4很可能集成Engram技术,从而拥有更大的知识库、更强的逻辑推理和更低的推理成本 [5][61][64] - 这标志着AI行业从单纯“卷算力”、“堆参数”向架构创新转变,中国大模型公司正在重新定义下一代AI的竞赛规则 [65]
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
36氪· 2026-01-13 15:14
核心观点 - DeepSeek团队提出了一种名为“条件记忆”(Conditional Memory)的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1] - 该研究认为,语言建模包含需要深度动态计算的组合推理和检索静态知识两种不同性质的任务,而现有Transformer缺乏高效的原生知识查找机制,导致计算资源浪费 [4] - 通过将部分稀疏参数预算从混合专家(MoE)重新分配给Engram记忆模块,可以在固定计算预算下显著提升模型性能,形成一条U型最优曲线 [15][17] - 实验表明,在27B参数规模下,采用Engram的模型在知识、通用推理、代码和数学等多个领域的基准测试中均显著超越同规模纯MoE模型,甚至有效“加深”了网络推理深度 [21][23] - Engram的确定性寻址机制支持存储与计算的解耦,允许将海量参数表卸载至CPU内存,在推理时带来可忽略的额外开销,实现了硬件感知的高效设计 [27][29][31] 技术原理与设计 - **核心问题识别**:现有Transformer模型在识别如“Diana, Princess of Wales”这类实体时,需要消耗多达6层注意力进行逐层特征拼凑,本质是用昂贵的运行时计算来重建静态查找表,浪费了可用于高层推理的网络深度 [4][5] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度捕获局部依赖和静态知识 [6] - **关键创新 - Engram模块**:在Transformer层间插入Engram模块,对当前token及前几个token组成的N-gram进行哈希查找,从一个巨大的嵌入表中直接取出对应向量 [6] - **解决传统N-gram痛点**: - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [11] - 使用多个哈希函数将N-gram映射到固定大小的嵌入表,解决了存储爆炸问题,并通过多哈希头减少查找冲突 [11] - **上下文感知门控**:引入门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声,实现静态模式调用与动态计算的灵活切换 [8] 实验与性能分析 - **稀疏性分配研究**:固定总参数量和每token激活参数量,在MoE专家和Engram记忆间重新分配参数预算,实验得出一条U型曲线 [15] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分给Engram时,模型验证集loss最低 [17] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低0.0139 [17] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间(即20%-25%预算给Engram) [17] - **27B规模模型对比**:在激活参数量均为38亿、训练token均为2620亿的条件下进行对比 [18] - **Engram-27B**:总参26.7B,分配5.7B参数给Engram记忆模块 [18][22] - **Engram-40B**:总参39.5B,Engram记忆参数增至18.5B [18][22] - **性能提升结果**:与纯MoE-27B模型相比,Engram-27B在多项基准测试中取得显著提升 [21][22] - 知识密集型任务:MMLU提升3分(从57.4到60.4),CMMLU提升4.0分(从57.9到61.9),TriviaQA提升1.9分(从48.8到50.7) [21] - 通用推理任务:BBH大幅提升5.0分(从50.9到55.9),ARC-Challenge提升3.7分(从70.1到73.8),DROP提升3.3分(从55.7到59.0) [21] - 代码数学任务:HumanEval提升3.0分(从37.8到40.8),MATH提升2.4分(从28.3到30.7),GSM8K提升2.2分(从58.4到60.6) [21] - **性能提升原因分析**:Engram让模型早期层无需做特征组合的“苦力活”,从而“加深”了网络有效深度 [23] - KL散度曲线显示Engram模型预测收敛更快 [23] - CKA相似度分析表明,Engram-27B第5层的表征与MoE基线第12层的表征最相似 [23] - **扩展性与长上下文**:Engram-40B进一步增加记忆参数后,大部分任务性能持续提升,且训练后期损失仍在下降,说明记忆容量未饱和 [25] - 长上下文场景提升显著:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [25][26] 工程实现与效率 - **训练阶段**:巨大的词表参数(高达100B)需要拆分到多个GPU上,并通过All-to-All通信机制传递记忆片段 [27] - **推理优化**:利用Engram查找索引的确定性,可将巨大的嵌入表卸载到CPU内存,并通过PCIe异步预取实现通信与计算的重叠 [29] - 在H800 GPU上测试,为一个4B密集模型增加1000亿参数的CPU卸载Engram表,吞吐量从9031 token/s降至8858 token/s,额外开销在3%以内 [29] - 8B密集模型增加后,吞吐量从6315 token/s降至6140 token/s,开销同样低于3% [29] - **缓存策略**:利用N-gram访问遵循Zipfian分布的特点,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD),进一步压缩有效延迟 [30]
DeepSeek发布梁文锋署名新论文
券商中国· 2026-01-13 14:25
DeepSeek发布新论文与开源模块 - 公司于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与公司共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构来增强大型语言模型[1] - 在等参数、等算力条件下,该方法能显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] - 公司同步开源了相关记忆模块,命名为Engram[1] 论文的技术核心与影响 - 论文聚焦于大型语言模型稀疏性的新维度,即“基于可扩展查找的条件记忆”[1] - 该技术为行业提供了一种在不大幅增加计算资源消耗的前提下,提升模型多任务性能的新路径[1]
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
贝壳财经· 2026-01-13 12:41
论文发布与核心概念 - DeepSeek于1月12日晚间发布了一篇与北京大学共同完成的新论文[1] - 论文主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 论文核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一概念[2] 技术方案与架构创新 - 为实现“条件记忆”,公司提出了一个名为Engram(记忆痕迹)的模块[2] - 该模块将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支[2] - “静态模式检索”分支负责实体、固定短语等确定性知识的快速调取[2] - “动态组合推理”分支则交由Transformer架构专注完成复杂逻辑运算[2] 行业定位与未来展望 - 论文将“条件记忆”视为下一代稀疏模型不可或缺的建模原语[3] - 在业界猜测其下一代模型将于春节前发布的背景下,此篇论文或为模型方向提供了线索[3]