报告行业投资评级 * 本报告为针对DeepSeek公司“Engram”技术模型的专题分析,未对特定行业或公司给出投资评级 [1] 报告的核心观点 * DeepSeek与北京大学联合发布的Engram模型,通过“条件记忆”机制将静态知识检索与复杂计算分离,在等参数和等计算量约束下,相比传统模型实现了系统性性能提升,并验证了“存算分离”的可行性,为AI基础设施需求结构带来潜在变革 [1][2][6] 技术原理与性能优势 * Engram模型的核心是引入“条件记忆”机制,将大量静态、可复用的知识组织成可扩展的内生记忆表,通过哈希查表实现O(1)时间的快速检索,从而让主干网络的计算资源更专注于深层推理与上下文理解任务 [1][2] * 在总参数量和训练计算量固定的约束下,将约20%的传统参数容量替换为条件记忆模块,能在知识密集型与复杂推理任务上取得显著效果提升,模型性能呈现先升后降的“U形”变化趋势,存在明确的最优区间 [3] * 在等参数、等FLOPs条件下,Engram-27B模型相比MoE-27B基线在多个核心评测中实现系统性提升,包括MMLU提升+3.0、BBH提升+5.0、HumanEval提升+3.0、MATH提升+2.4 [1][7] * 该模型在长上下文任务中表现尤为突出,在多项RULER子任务上显著优于基线,其设计通过将局部重复细节交给记忆查找,释放了主干网络对全局信息整合与长链条推理的专注能力 [1][4] 效率与成本效益 * Engram模型具备优异的训练与计算效率,在长上下文扩展实验中,仅消耗约82%的基线预训练计算量(41k vs 50k)即在部分困惑度指标上达到相当水平,同时在RULER任务上取得更高准确率 [4] * 该模型的可扩展性设计使其记忆容量可以低成本放大,由于每次仅检索固定数量的记忆条目,扩大记忆表规模不会带来计算成本的线性增长,为模型能力提升提供了高效益的扩展路径 [3] * 工程层面,Engram验证了“存算分离”的可行性,支持将大规模参数表卸载至主机内存,即使将规模达100B的记忆参数表卸载,其带来的额外推理开销也可控制在3%以内 [1][6] 对AI基础设施的潜在影响 * Engram的技术路径可能使AI基础设施的“瓶颈位置”从GPU的高带宽内存进一步外溢到DRAM、互联技术和存储系统,推动硬件需求结构从单纯依赖GPU显存扩展,转向“GPU算力、大容量系统内存与高效互联技术”的协同配置 [6][8] * CPU的角色将从“配角”走向“记忆与数据通路的关键节点”,通过确定性检索机制预取主机内存中的数据,与GPU计算重叠以掩盖延迟,端到端验证显示,在NVIDIA H800上将100B参数的Engram层完全卸载至主机内存,吞吐损失控制在3%以内(例如4B密集模型从9031.62 tok/s降至8858.28 tok/s) [6] * 该技术可能在中短期内强化对DRAM的需求弹性,若推动更多AI系统采用DRAM承载大规模静态记忆,可能提升单服务器的DRAM配置量与内存通道价值,同时互联带宽与分层存储体系的重要性将显著提升 [8] 对中国AI产业的意义 * Engram技术为中国大模型产业在高端显存/算力受约束的情况下,提高“每单位硬件的产出”提供了可行路径,其性能增益并非完全依赖硬件资源堆砌,而是通过架构层面的效率优化实现 [7] * 该技术为效率驱动的技术追赶提供了更清晰的路径,并有利于加速技术的规模化落地与产业扩散,特别是在国内政企私有化部署及成本敏感场景中,能以更少的GPU显存需求实现相当性能,提升部署可行性与商业化速度 [7] * DeepSeek已在GitHub同步开源相关论文与代码,大幅降低了产业界的验证、复用与二次开发门槛 [1][7]
DeepSeekEngram:把“回忆”交给查表,把算力留给推理
海通国际证券·2026-01-27 16:50