条件记忆(conditional memory)
搜索文档
DeepSeek新模型曝光?“MODEL1”现身开源社区
上海证券报· 2026-01-22 05:31
DeepSeek技术进展与开源动态 - 公司于2025年2月启动“开源周”,计划以每日解锁形式逐步公开5个代码库,首个开源项目为Flash MLA [4] - Flash MLA通过优化Hopper GPU的内存访问和计算流程,显著提高可变长度序列的处理效率,其核心设计包括动态内存分配机制和并行解码策略,可减少冗余计算并提升吞吐量,尤其适用于大语言模型的推理任务 [4] 疑似新一代模型“MODEL1”的线索 - 近日,DeepSeek官方在GitHub更新FlashMLA代码,涉及的114个文件中,有数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - 在某些文件中,“MODEL1”与已知的现有模型“V32”(即DeepSeek-V3.2)并列提及,行业分析认为,“MODEL1”或许代表一个不同于现有架构的新模型,可能正是公司还未对外发布的下一代模型(R2或者V4) [4] - 此前有市场消息称,公司计划在2025年2月春节前后发布新一代AI模型DeepSeek V4,该模型是2024年12月发布的V3模型的迭代版,具备强大的编程能力 [4] 近期技术研究成果 - 2026年1月以来,公司已陆续发布两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [5] - 1月12日,公司与北京大学合作发表新论文,提出了条件记忆(conditional memory)及其实现方案Engram模块,该模块不仅有助于知识检索,同时在一般推理和代码/数学领域方面取得了更大的进步 [5] 公司研发的资金支持背景 - 公司创始人梁文锋旗下的私募幻方量化2025年的收益均值达56.55%,在中国管理规模超百亿的量化私募业绩榜中位列第二,仅次于以73.51%收益均值登顶的灵均投资 [5] - 目前,幻方量化管理规模已超700亿元,其较高的收益率为DeepSeek的研发提供了更多支持 [5] 模型性能表现 - 公司内部的初步测试显示,其新一代模型V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列 [4][5]
DeepSeek发布梁文锋署名新论文
新华网财经· 2026-01-13 11:52
论文发布与技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现[1] 技术开源与行业影响 - DeepSeek同步开源了相关记忆模块Engram[1] - 该研究为大型语言模型开辟了稀疏性的新维度[1]
DeepSeek发布梁文锋署名新论文
财联社· 2026-01-13 09:15
论文发布与核心技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》 [1] - 论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋 [1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型性能 [1] 技术原理与性能提升 - 提出的“条件记忆”技术是大型语言模型稀疏性的一个新维度 [1] - 该技术能在知识调用、推理、代码、数学等任务上显著提升模型表现 [1] 开源与行业影响 - DeepSeek同步开源了相关的记忆模块,命名为Engram [1]
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
机器之心· 2026-01-13 08:12
文章核心观点 - DeepSeek与北京大学合作发布新研究,提出“条件记忆”作为大语言模型稀疏化的新维度,并通过新模块“Engram”实现,旨在解决现有Transformer架构缺乏原生知识查找机制的问题 [1][2][3] - 条件记忆与混合专家模型的条件计算形成互补,研究发现了MoE与Engram之间最优分配的U型扩展规律,在等参数量、等FLOPs条件下,集成Engram的模型性能显著优于纯MoE基线 [7][8][9][10] - Engram模块通过确定性的哈希检索机制,能以O(1)时间复杂度完成知识查找,并将存储与计算解耦,在系统层面实现高效扩展,有望成为下一代稀疏大模型的核心建模原语 [8][11][12] 技术方案:Engram模块设计 - **核心架构**:Engram模块在结构上将静态模式存储与动态计算从Transformer主干网络中分离,对序列每个位置依次执行检索与融合两个功能阶段 [12][14] - **检索机制**:采用基于哈希N-gram的稀疏检索,首先对当前位置后缀进行提取与压缩,并通过哈希以确定性方式检索静态嵌入向量,此过程引入词表投影将有效词表规模缩减约23% [14][15] - **融合机制**:检索后引入上下文感知门控机制,对检索到的静态嵌入向量进行动态调整和精炼,以适应当前上下文并减少噪声干扰 [16][17] 系统效率与扩展优势 - **计算存储解耦**:Engram的确定性检索机制支持将参数存储与计算资源解耦,不同于MoE的动态路由,其检索索引完全由输入决定,支持训练时的模型并行和推理时的预取-重叠策略 [18][20] - **分层缓存设计**:利用N-gram的Zipfian分布特性,构建多级缓存层次结构,将高频嵌入存于GPU HBM或主机DRAM,低频模式存于NVMe SSD,从而支持极大规模记忆容量扩展 [21] - **几乎零开销**:确定性的寻址方式支持从主机内存预取,几乎不会带来额外性能开销 [11] U型扩展规律与稀疏性分配 - **最优分配比例**:在总参数量和训练计算量固定下,研究发现了MoE与Engram分配比例与验证损失间的U型关系,将约20%-25%的稀疏参数预算分配给Engram能获得最佳性能 [24][26][27] - **纯MoE次优**:实验表明纯MoE基准是次优的,在10B规模范围内,将稀疏参数预算的约80%分配给MoE,约20%分配给Engram时,验证损失从1.7248改善至1.7109 [26][27] - **无限记忆扩展**:在固定MoE主干上激进扩展Engram记忆槽数量,验证损失持续稳定改善,且遵循严格的幂律,表明Engram提供了可预测的、无需额外计算的扩展能力 [25][27] 实验结果:模型性能对比 - **实验设置**:训练了Dense-4B、MoE-27B、Engram-27B和Engram-40B四个模型,在包含2620亿token的语料库上预训练,激活参数量严格匹配 [33][34][35] - **全面性能提升**:在等参数量、等FLOPs条件下,Engram-27B在所有基准测试中持续优于MoE-27B,提升不仅限于知识任务(如MMLU提升+3.0,CMMLU提升+4.0),在通用推理(如BBH提升+5.0,ARC-Challenge提升+3.7)及代码数学推理(如HumanEval提升+3.0,MATH提升+2.4)上更为显著 [10][37] - **扩展有效性**:扩展至Engram-40B进一步降低了预训练损失,并提高了大多数基准测试性能,表明扩展的记忆容量尚未在当前token预算内完全饱和 [38] 长上下文能力分析 - **架构优越性**:在控制基础模型能力的前提下,Engram在长上下文任务中表现出显著增益,例如在多查询NIAH任务中准确率从84.2提升至97.0 [10][44] - **等损耗设置对比**:当预训练损失对齐时,Engram-27B在复杂检索任务上大幅超越MoE-27B基准(多查询NIAH:97.0 vs 84.2;变量跟踪VT:87.2 vs 77.0) [45] - **注意力容量释放**:通过将局部依赖建模卸载至静态查找,Engram为处理全局上下文保留了宝贵的注意力容量,从而提升了长程检索和推理能力 [40] 表示对齐与收敛速度 - **加速收敛**:基于LogitLens的逐层KL散度分析显示,在模型浅层KL散度持续保持较低水平,表明Engram加速了预测的收敛 [44] - **有效深度增加**:基于CKA计算的相似度热力图显示,Engram浅层在功能上等效于MoE模型的深层,从而有效地增加了模型的有效深度 [44]