文章核心观点 - DeepSeek发布了一篇关于Engram模块的论文,该技术旨在解决Transformer架构缺乏原生记忆查找机制的核心缺陷,通过引入一个可扩展的查表模块,让AI能高效检索固定知识,从而解放计算资源用于复杂推理,这可能预示着DeepSeek V4的核心技术方向 [1][4][9][11][62][63] 一、核心问题与Engram模块技术原理 - Transformer架构将所有任务混合处理,没有区分固定知识检索和动态推理,导致效率低下,例如回答“戴安娜王妃的全名是什么?”需要动用多层神经网络进行计算 [6][7][18][20] - Engram模块为AI增加了“电子脑”或“速查手册”,采用现代化的N-gram方法,将固定知识组合(如“张仲景”、“四大发明”)存储在巨大词表中,实现快速调用 [9][10][22] - 该模块通过哈希函数映射解决传统N-gram存储爆炸问题,并通过“门控机制”根据上下文判断来解决多义性问题(如区分“Apple”是公司还是水果) [26] 二、反直觉发现:记忆模块对推理能力的提升 - 实验发现,在固定总参数量和算力下,调整MoE(混合专家模型)与Engram的分配比例,性能呈现U型曲线,最优性能出现在将20-25%的稀疏参数分配给Engram记忆模块时 [29][30][31][42] - 这一规律表明记忆无法替代计算,计算也无法高效模拟记忆,两者配合是最优解,且该U型曲线在不同规模下稳定存在,是一个可扩展的规律 [32][34] - 训练了27B参数的Engram模型,与同规模纯MoE模型对比,不仅知识类任务提升,推理、代码、数学等需要深度思考的任务性能提升更大,核心原因是Engram解放了早期神经网络层,使其能专注于复杂推理链条 [35][36] 三、对AI行业的冲击 - 冲击1:稀疏化进入“双轴时代”:行业竞争从仅在MoE上卷效率,扩展到“条件记忆”这第二条路,可能导致OpenAI、Anthropic等巨头需要重新设计架构以跟进 [38][39] - 冲击2:硬件生态可能变化:Engram的查表操作是确定性的,可提前预取并与计算重叠,实验将1000亿参数的Engram表放在CPU内存中,在H800 GPU上跑推理,吞吐量仅下降3%,这降低了对昂贵GPU内存的依赖,可能影响英伟达等硬件厂商 [40][41][43][44][45] - 冲击3:长上下文能力实现飞跃:在处理超长文档任务时,准确率从八成多提升到九成多,实现了质的飞跃,因为Engram将局部依赖建模卸载给查表,释放了注意力容量去关注全局上下文,这对法律合同、医疗病历、长篇代码理解等场景意义重大 [46][47][48][49] 四、对普通人的机会方向 - 方向1:知识密集型应用迎来爆发期:Engram能大幅优化固定知识检索的成本和速度,例如医疗、法律、教育领域的问答系统,成本可能降至原来的十分之一,速度提升十倍以上 [51][52][64] - 方向2:多语言和垂直领域微调服务:Engram对语义相同但形式不同的token做了压缩,使128K词表的有效规模减少23%,且门控机制在中英文上表现良好,降低了多语言应用门槛,适合开发小语种客服机器人、金融风控报告生成等定制化服务 [54][55][58][72] - 方向3:长上下文应用的爆发:Engram在长文本任务上的提升是质的飞跃,结合32K上下文窗口,能有效覆盖合同审查、医疗诊断、代码审计、学术研究等需要处理长文档的场景,为To B领域的企业服务提供了切入机会 [56][57][59][60][71][72]
速递 | DeepSeek又发论文了,这可能是V4核心预告,普通人的3个机会来了?
未可知人工智能研究院·2026-01-14 11:02