Workflow
条件记忆模块
icon
搜索文档
梁文锋署名,DeepSeek论文上新
第一财经资讯· 2026-01-13 11:41
公司研究:深度求索(DeepSeek)技术进展与产品规划 - 公司于1月12日晚发布与北京大学合作完成的新论文,聚焦大模型的条件记忆模块[2] - 论文核心观点认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语[2][7] - 论文作者包括公司创始人梁文锋,论文名称为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》[5] 技术架构创新:条件记忆与Engram模块 - 论文核心观察指出,大模型包含两种任务:需要深度动态计算的组合推理和检索静态知识[5] - 现有Transformer架构缺乏原生知识查找机制,检索静态知识时需浪费算力重新推导,效率低下[5] - 为解决此问题,团队引入条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算(MoE)与静态记忆(Engram)之间的权衡[5] - 团队发现了U型缩放定律,表明MoE专家和Engram记忆之间的混合稀疏容量分配严格优于纯MoE基准模型[6] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益[6] - 技术本质是给大模型做“分工优化”,让专门模块处理固定知识(记忆本)和复杂思考(推理模块),并按最佳比例分配资源,使模型更高效[6] 产品路线与市场预期 - 结合近期研究,业内猜测此次论文揭示的技术或许是公司下一代大模型DeepSeek V4的研究路线图[5] - 有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构[7] - 此前有爆料称,DeepSeek下一代大模型V4将在春节前后发布[5] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型[7] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro[7] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点[7]
DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?
第一财经资讯· 2026-01-13 11:32
公司技术研究进展 - 公司于1月12日晚发布了一篇与北京大学合作完成的新论文,聚焦大模型的条件记忆模块 [4] - 论文名称为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者列包含公司创始人梁文锋 [4] - 论文核心观察是,大模型包含需要深度动态计算的组合推理和检索静态知识两种性质完全不同的任务,而现有Transformer架构缺乏原生知识查找机制,导致效率低下 [4] - 为解决该问题,团队引入了条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算与静态记忆之间的权衡关系 [4] - 团队发现了U型缩放定律,表明混合稀疏容量分配严格优于纯MoE基准模型 [5] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益 [5] - 论文本质是对大模型进行“分工优化”,让专门模块处理固定知识和复杂推理,并按最佳比例分配资源,旨在提升模型效率与性能 [6] - 公司在论文结论中认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [1][6] 下一代模型发布预期 - 此前有爆料称公司下一代大模型V4将在春节前后发布,结合近期研究,业内猜测此次论文提出的条件记忆可能就是V4的技术架构路线图 [4][6] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [6] - 报道提及发布计划可能会根据实际情况进行调整,公司目前未对相关消息进行回应 [6] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本 [6] - V3.2版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro [6] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点 [6]