刚刚,梁文锋署名开源「记忆」模块,DeepSeek V4更细节了
就在十几个小时前,DeepSeek 发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》, 与北京大学合作完成,作者中同样有梁文锋署名。 论文地址:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 简单总结一波这项新研究要解决的问题:目前大语言模型主要通过混合专家(MoE)来实现稀疏化,这被称为「条件计算」。但是,现有的 Transformer 缺少原生的知识查找机制,只能被迫通过计算过程低效地模拟检索行为。 针对这一现状,DeepSeek 提出了条件记忆(conditional memory),从而与 MoE 的条件计算互补,并通过引入一个新模块 Engram 来实现。 此外,结合元旦期间公布的研究《mHC:Manifold-ConstrainedHyper-Connections》,我们可以明确的是 DeepSeek v4 的模样愈发清晰,就等上新了! 目前,模块「Engram」 ...