Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
36氪· 2026-01-13 15:14
核心观点 - DeepSeek团队提出了一种名为“条件记忆”(Conditional Memory)的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1] - 该研究认为,语言建模包含需要深度动态计算的组合推理和检索静态知识两种不同性质的任务,而现有Transformer缺乏高效的原生知识查找机制,导致计算资源浪费 [4] - 通过将部分稀疏参数预算从混合专家(MoE)重新分配给Engram记忆模块,可以在固定计算预算下显著提升模型性能,形成一条U型最优曲线 [15][17] - 实验表明,在27B参数规模下,采用Engram的模型在知识、通用推理、代码和数学等多个领域的基准测试中均显著超越同规模纯MoE模型,甚至有效“加深”了网络推理深度 [21][23] - Engram的确定性寻址机制支持存储与计算的解耦,允许将海量参数表卸载至CPU内存,在推理时带来可忽略的额外开销,实现了硬件感知的高效设计 [27][29][31] 技术原理与设计 - **核心问题识别**:现有Transformer模型在识别如“Diana, Princess of Wales”这类实体时,需要消耗多达6层注意力进行逐层特征拼凑,本质是用昂贵的运行时计算来重建静态查找表,浪费了可用于高层推理的网络深度 [4][5] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度捕获局部依赖和静态知识 [6] - **关键创新 - Engram模块**:在Transformer层间插入Engram模块,对当前token及前几个token组成的N-gram进行哈希查找,从一个巨大的嵌入表中直接取出对应向量 [6] - **解决传统N-gram痛点**: - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [11] - 使用多个哈希函数将N-gram映射到固定大小的嵌入表,解决了存储爆炸问题,并通过多哈希头减少查找冲突 [11] - **上下文感知门控**:引入门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声,实现静态模式调用与动态计算的灵活切换 [8] 实验与性能分析 - **稀疏性分配研究**:固定总参数量和每token激活参数量,在MoE专家和Engram记忆间重新分配参数预算,实验得出一条U型曲线 [15] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分给Engram时,模型验证集loss最低 [17] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低0.0139 [17] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间(即20%-25%预算给Engram) [17] - **27B规模模型对比**:在激活参数量均为38亿、训练token均为2620亿的条件下进行对比 [18] - **Engram-27B**:总参26.7B,分配5.7B参数给Engram记忆模块 [18][22] - **Engram-40B**:总参39.5B,Engram记忆参数增至18.5B [18][22] - **性能提升结果**:与纯MoE-27B模型相比,Engram-27B在多项基准测试中取得显著提升 [21][22] - 知识密集型任务:MMLU提升3分(从57.4到60.4),CMMLU提升4.0分(从57.9到61.9),TriviaQA提升1.9分(从48.8到50.7) [21] - 通用推理任务:BBH大幅提升5.0分(从50.9到55.9),ARC-Challenge提升3.7分(从70.1到73.8),DROP提升3.3分(从55.7到59.0) [21] - 代码数学任务:HumanEval提升3.0分(从37.8到40.8),MATH提升2.4分(从28.3到30.7),GSM8K提升2.2分(从58.4到60.6) [21] - **性能提升原因分析**:Engram让模型早期层无需做特征组合的“苦力活”,从而“加深”了网络有效深度 [23] - KL散度曲线显示Engram模型预测收敛更快 [23] - CKA相似度分析表明,Engram-27B第5层的表征与MoE基线第12层的表征最相似 [23] - **扩展性与长上下文**:Engram-40B进一步增加记忆参数后,大部分任务性能持续提升,且训练后期损失仍在下降,说明记忆容量未饱和 [25] - 长上下文场景提升显著:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [25][26] 工程实现与效率 - **训练阶段**:巨大的词表参数(高达100B)需要拆分到多个GPU上,并通过All-to-All通信机制传递记忆片段 [27] - **推理优化**:利用Engram查找索引的确定性,可将巨大的嵌入表卸载到CPU内存,并通过PCIe异步预取实现通信与计算的重叠 [29] - 在H800 GPU上测试,为一个4B密集模型增加1000亿参数的CPU卸载Engram表,吞吐量从9031 token/s降至8858 token/s,额外开销在3%以内 [29] - 8B密集模型增加后,吞吐量从6315 token/s降至6140 token/s,开销同样低于3% [29] - **缓存策略**:利用N-gram访问遵循Zipfian分布的特点,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD),进一步压缩有效延迟 [30]
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
贝壳财经· 2026-01-13 12:41
论文发布与核心概念 - DeepSeek于1月12日晚间发布了一篇与北京大学共同完成的新论文[1] - 论文主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 论文核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一概念[2] 技术方案与架构创新 - 为实现“条件记忆”,公司提出了一个名为Engram(记忆痕迹)的模块[2] - 该模块将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支[2] - “静态模式检索”分支负责实体、固定短语等确定性知识的快速调取[2] - “动态组合推理”分支则交由Transformer架构专注完成复杂逻辑运算[2] 行业定位与未来展望 - 论文将“条件记忆”视为下一代稀疏模型不可或缺的建模原语[3] - 在业界猜测其下一代模型将于春节前发布的背景下,此篇论文或为模型方向提供了线索[3]
DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
金融界· 2026-01-13 12:38
论文核心研究成果 - 公司发布与北京大学联合完成的论文,提出“条件记忆”作为下一代稀疏大模型中不可或缺的核心建模原语 [1][4] - 论文核心洞察指出,大模型承担着组合推理与静态知识检索两类性质迥异的任务,而现有Transformer架构缺乏原生知识查找机制,导致调用固定知识时仍需低效计算,耗时且占用资源 [4] - 公司团队提出通过名为Engram的条件记忆模块来优化神经计算(MoE)与静态记忆之间的权衡关系,旨在为大模型实现“分工优化”,由Engram模块负责固定知识存储,推理模块专注复杂思考 [5] - 团队发现了“U型缩放定律”,表明在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型 [5] - 尽管记忆模块设计初衷是提升知识检索效率,但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升 [5] 下一代模型V4的行业预期 - 结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图 [1] - 公司在论文中强调条件记忆将成为下一代稀疏模型的核心建模原语,让行业进一步猜测该技术或正是DeepSeek V4模型的核心技术架构 [5] - 此前报道称,公司计划于2月发布新一代旗舰模型V4,内部初步测试显示其编程能力已超越市场现有顶级模型,但发布计划可能根据实际情况调整 [6] - 自2024年底发布V3模型后,其下一代旗舰模型备受行业关注,去年底推出的V3.2小版本更新曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro [6] - 业内普遍认为,V4模型的正式推出有望成为行业焦点事件 [6]
梁文锋署名,DeepSeek论文上新
第一财经资讯· 2026-01-13 11:41
公司研究:深度求索(DeepSeek)技术进展与产品规划 - 公司于1月12日晚发布与北京大学合作完成的新论文,聚焦大模型的条件记忆模块[2] - 论文核心观点认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语[2][7] - 论文作者包括公司创始人梁文锋,论文名称为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》[5] 技术架构创新:条件记忆与Engram模块 - 论文核心观察指出,大模型包含两种任务:需要深度动态计算的组合推理和检索静态知识[5] - 现有Transformer架构缺乏原生知识查找机制,检索静态知识时需浪费算力重新推导,效率低下[5] - 为解决此问题,团队引入条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算(MoE)与静态记忆(Engram)之间的权衡[5] - 团队发现了U型缩放定律,表明MoE专家和Engram记忆之间的混合稀疏容量分配严格优于纯MoE基准模型[6] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益[6] - 技术本质是给大模型做“分工优化”,让专门模块处理固定知识(记忆本)和复杂思考(推理模块),并按最佳比例分配资源,使模型更高效[6] 产品路线与市场预期 - 结合近期研究,业内猜测此次论文揭示的技术或许是公司下一代大模型DeepSeek V4的研究路线图[5] - 有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构[7] - 此前有爆料称,DeepSeek下一代大模型V4将在春节前后发布[5] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型[7] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro[7] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点[7]
DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?
第一财经资讯· 2026-01-13 11:32
公司技术研究进展 - 公司于1月12日晚发布了一篇与北京大学合作完成的新论文,聚焦大模型的条件记忆模块 [4] - 论文名称为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者列包含公司创始人梁文锋 [4] - 论文核心观察是,大模型包含需要深度动态计算的组合推理和检索静态知识两种性质完全不同的任务,而现有Transformer架构缺乏原生知识查找机制,导致效率低下 [4] - 为解决该问题,团队引入了条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算与静态记忆之间的权衡关系 [4] - 团队发现了U型缩放定律,表明混合稀疏容量分配严格优于纯MoE基准模型 [5] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益 [5] - 论文本质是对大模型进行“分工优化”,让专门模块处理固定知识和复杂推理,并按最佳比例分配资源,旨在提升模型效率与性能 [6] - 公司在论文结论中认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [1][6] 下一代模型发布预期 - 此前有爆料称公司下一代大模型V4将在春节前后发布,结合近期研究,业内猜测此次论文提出的条件记忆可能就是V4的技术架构路线图 [4][6] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [6] - 报道提及发布计划可能会根据实际情况进行调整,公司目前未对相关消息进行回应 [6] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本 [6] - V3.2版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro [6] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点 [6]
DeepSeek-V4 即将发布,算力效率与性能双升级!低费率云计算ETF华夏、创业板人工智能ETF华夏获资金抢筹
新浪财经· 2026-01-13 11:32
市场行情与ETF表现 - 1月13日盘中,三大指数翻绿,科技板块随市调整 [1] - 通信ETF华夏(515050)跌幅扩大至2.39%,持仓股涨跌分化,海格通信、烽火通信实现连板,普天科技、广和通、信维通信领跌 [1] - 创业板人工智能ETF华夏(159381)下跌1.64%,盘中成交额快速突破3亿元,资金交易活跃 [1] - 云计算ETF华夏(516630)跌0.64%,近3个交易日获得资金连续净流入超1.3亿元 [1] AI模型与算力技术进展 - DeepSeek计划于2月中旬推出新一代旗舰模型DeepSeek-V4,重点提升代码生成与长上下文处理能力 [1] - 内部测试显示,DeepSeek-V4在代码任务上已超越Claude和GPT系列 [1] - V4采用新架构,能在长序列训练中保持理解力,并以更高算力效率完成训练 [1] - 在CES2026展会期间,英伟达发布NVIDIA Rubin平台并已全面量产,基于Rubin的产品将在2026年下半年通过合作伙伴提供 [2] - AMD公布了“Helios”平台并首次公开完整的AMD Instinct MI400系列加速器产品组合,同时预览了新一代MI500系列GPU [2] - 全球AI算力平台的能力持续提升,与全球大模型的持续迭代升级共振,将推动全球AI产业持续蓬勃发展 [2] 相关ETF产品概况 - 云计算ETF华夏(516630)跟踪云计算指数(930851),是费率最低的ETF,该指数聚焦国产AI软硬件算力,计算机软件+云服务+计算机设备合计权重高达83.7%,deep seek、AI应用含量均超40% [3] - 创业板人工智能ETF华夏(159381)跟踪指数一半权重在AI硬件算力(CPO),一半权重在AI软件应用(计算机、传媒、电子、军工),具备较高弹性和代表性,目前该ETF场内综合费率仅0.20% [3] - 通信ETF华夏(515050)跟踪中证5G通信主题指数,深度聚焦英伟达、苹果、华为产业链,前五大持仓股为中际旭创、新易盛、立讯精密、工业富联、兆易创新 [3]
DeepSeek发布梁文锋署名新论文
证券时报· 2026-01-13 11:02
论文发布与核心技术创新 - DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 该论文由北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋[1] - 论文提出“条件记忆”新方法,通过引入可扩展的查找记忆结构来增强大型语言模型[1] 技术原理与性能提升 - 新方法在模型参数总量和计算力消耗保持不变的条件下,显著提升了模型性能[1] - 性能提升主要体现在知识调用、推理、代码生成和数学任务等多个关键任务上[1] 开源与生态建设 - DeepSeek同步开源了与论文相关的记忆模块,命名为Engram[1]
DeepSeek等8大产品都是意外?! 改变世界的项目们,最初都没被“当个事儿办”
搜狐财经· 2026-01-13 09:47
文章核心观点 - 许多具有世界级影响力的重要产品最初都起源于非主线、非KPI驱动的“支线项目”,这些项目因其灵活性和低约束环境而成为创新的重要源泉 [1] - 在AI时代,技术降低了试错成本,个人或小团队能更快速地进行探索和验证,这使得支线项目更有可能孕育出颠覆性的成果,并可能成为未来方向的早期信号 [7][8][10] 支线项目的定义与特征 - 支线项目被界定为非主线、非KPI驱动、最初非战略立项的项目,其成立之初并不重要,也非公司的核心战略方案 [1] - 这类项目通常没有项目经理、销售、市场进入策略、合规或股东的过多干预,被认为是“魔法生效的地方” [1] - 支线项目允许技术跑在需求前面,能够绕开创业项目常见的节奏、叙事、融资节点和对外承诺等约束 [2] 国内支线项目案例分析 - **DeepSeek(幻方量化)**:作为量化投资公司的支线项目诞生,并非聚光灯下的战略产品,而是内部技术演进的自然延伸 [2] - 幻方量化长期进行算力、模型和工程效率的技术研究,首先服务于量化交易,AI作为辅助金融分析的支线工具 [2] - 公司拥有丰富的GPU集群资源(算力)和金融专业场景的长期数据优势,在研发通用智能时更注重模型推理和数学能力 [2] - 长期高强度算法投入和顶尖人才储备,为打造爆款AI产品创造了条件 [2] - **Qwen(阿里巴巴)**:在阿里内部早期也是支线项目,公司当时的大模型战略主线是面向行业ToB用户的商业化交付 [3] - Qwen选择了一条开源道路,其早期发展采用了“放养”模式,公司给予研究团队空间,在证明价值后再逐步融入主线资源 [3] - 支线项目模式被认为能提高成功几率,原因包括:减少过度决策参与,将自主权交还给研发人员;减少微观管理,以更大的试错空间换取更快的迭代速度 [3] 硅谷支线项目案例分析 - **Claude Code(Anthropic)**:最初是工程师Boris Cherny的一个实验性支线项目,始于一个能连接Apple设备并告知用户所听音乐的简单功能 [5] - 在与产品经理交流后,项目方向演变为开发与系统文件交互的工具(如读/写文件、运行批处理命令),并在相当偶然的情况下诞生 [5] - 项目正式面市后产生暴风式传播效应,成为Anthropic的当家产品之一 [5] - 该项目展示了AI编程能力的飞速进步:一年前,Claude在生成bash命令时还存在问题且只能短暂工作;如今,开发者利用Claude Code+Opus4.5在30天内提交了259个PR、497次提交,添加了40000行代码并删除了38000行代码,Claude能持续运行数分钟、数小时甚至数天 [5] - 该支线项目现已推动软件工程进入新的范式时期 [6] AI时代下支线项目价值的变化 - AI显著降低了试错成本,过去需要团队协作和资源协调的探索,现在个人能更轻松、迅速地完成初步验证 [7] - 这使得“探索”不必再总是正式的立项行为,在日常工作中就可能产生新思路或新方法 [7] - 许多支线项目从解决具体问题开始,通过真实使用不断修正方向,最终成长为重要产品 [8] - AI缩短了从想法到验证的距离,项目的价值在于能否被迅速使用和反馈,从而放大了个人探索的价值 [8] - 虽然AI提升了执行效率,但未必同步提升战略判断的准确性,主线项目在技术环境变化时可能受原有判断束缚而难以调整 [10] - 支线项目探索成本更低、反馈更快,为主线方向在验证后承接规模化任务奠定了基础 [10] - 在AI时代,关乎未来方向的早期信号,可能会越来越多地出现在最初不被重视的项目里 [10]
梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷
36氪· 2026-01-13 09:24
核心观点 - DeepSeek与北京大学联合发布新论文,提出了一种名为Engram的条件记忆模块,旨在解决Transformer架构缺乏原生知识查找机制的关键难题,通过将“稀疏化”应用于“记忆”而非仅“计算”,为大型语言模型开辟了一条新的技术路线[1][9][11] - Engram模块将语言建模中大量固定、局部、重复的模式(如实体名、固定搭配)交给一个可扩展的、具有近似O(1)复杂度的查表模块处理,从而将Transformer主干的注意力与深度计算资源解放出来,专注于需要组合与推理的任务[11][12][15] - 实验发现,MoE(条件计算)与Engram(条件记忆)之间存在“U形缩放定律”,需要在两者之间分配稀疏参数预算以找到最优权衡,这标志着稀疏化模型进入了“计算+记忆”双轴互补的新时代[3][33][46] - 在严格等参数、等计算量的条件下,集成Engram的模型(如Engram-27B)在知识、推理、代码、数学等广泛基准测试上全面优于传统的纯MoE基线模型,并且其收益具有结构性,能提升模型整体效率[5][38][48] - Engram的确定性检索特性使其在系统优化上具有优势,支持参数存储与计算资源的解耦,为“更大参数量、同等吞吐量”的工程实现提供了可行路径,并可能被集成到DeepSeek的下一代模型V4中[30][49][50] 技术架构与原理 - **核心设计**:Engram是一个插在Transformer中间层的可扩展条件记忆模块,其核心思想是将经典的哈希N-gram嵌入现代化,通过“暴力查表+记忆开关”的机制,为静态模式提供确定性的快速查找[16][18] - **工作流程**:模块分为检索和融合两个阶段。首先通过分词器压缩和确定性多头哈希,将局部上下文映射到静态记忆条目中;然后通过一个上下文感知的门控机制,动态决定是否采纳检索到的先验信息[20][21][25] - **门控机制验证**:可视化分析显示,Engram的门控机制能有效识别并激活处理多语言中的固定短语、命名实体等局部静态模式,证实了其按预期工作并将Transformer主干从记忆这些模式中解放出来[27][28][29] - **系统效率**:与MoE依赖隐藏状态动态路由不同,Engram的检索仅取决于输入Token序列,这种确定性支持在训练时进行模型并行,在推理时实现参数预取和计算重叠等优化策略[30][32] 实验发现与性能表现 - **U形缩放定律**:验证损失与分配给MoE的稀疏参数比例ρ之间存在一致的U型关系,证实了条件计算与条件记忆的结构互补性,纯MoE或纯Engram都不是最优解[33][37] - **内存扩展收益**:在探索范围内,扩展Engram的内存槽位数量能带来清晰且一致的验证损失改善,并遵循严格的幂律,表明其提供了一种可预测的、无需额外计算成本的扩展手段[37] - **基准测试全面领先**:在总参数26.7B、激活参数3.8B、训练Token数262B的同等设置下,Engram-27B在多个基准上全面超越MoE-27B,包括:MMLU准确率提升3.0个百分点,BBH提升5.0个百分点,HumanEval提升3.0个百分点,GSM8K提升2.2个百分点,MATH提升2.4个百分点[38][40] - **长上下文能力增强**:通过将局部依赖建模卸载给Engram,模型保留了更多注意力容量用于管理全局上下文,在长上下文扩展训练中,Engram模型在等损失或等计算量的设定下,其长程检索和推理任务性能显著优于MoE基线[41][44][45] 行业影响与未来展望 - **架构范式演进**:该研究标志着大模型稀疏化从单一的“条件计算”轴,进入了“条件计算”与“条件记忆”双轴互补的新时代,丰富了稀疏化的目标和内涵[46][47] - **潜在产品集成**:市场猜测DeepSeek即将发布的V4模型有很大概率将Engram融入其主干架构,若实现,将不仅是参数规模的提升,更可能是一次架构范式的跃迁[50][51] - **工程优化前景**:Engram的确定性查表特性非常适合系统级优化,为在保持吞吐量的前提下部署更大参数量的模型提供了新的工程思路,可能影响未来的硬件和系统设计[30][49]
刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
36氪· 2026-01-13 08:42
就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》, 与北京大学合作完成,作者中同样有梁文锋署名。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。 针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现。 此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了! 目前,模块「Engram」 ...