梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
论文发布与核心概念 - DeepSeek于1月12日晚间发布了一篇与北京大学共同完成的新论文[1] - 论文主题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》[1] - 论文核心直指当前大语言模型存在的记忆力“短板”,并提出了“条件记忆”这一概念[2] 技术方案与架构创新 - 为实现“条件记忆”,公司提出了一个名为Engram(记忆痕迹)的模块[2] - 该模块将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支[2] - “静态模式检索”分支负责实体、固定短语等确定性知识的快速调取[2] - “动态组合推理”分支则交由Transformer架构专注完成复杂逻辑运算[2] 行业定位与未来展望 - 论文将“条件记忆”视为下一代稀疏模型不可或缺的建模原语[3] - 在业界猜测其下一代模型将于春节前发布的背景下,此篇论文或为模型方向提供了线索[3]