大摩眼中的DeepSeek:以存代算、以少胜多
Seek .Seek .(US:SKLTY) 36氪·2026-01-22 17:09

文章核心观点 - DeepSeek通过创新的“Engram”模块和“条件记忆”机制,正在改变大语言模型的构建方式,其核心在于将存储与计算分离,从而减少对昂贵高带宽内存的依赖,转而利用性价比更高的普通系统内存,这代表了下一代AI发展的关键方向,即通过更聪明的混合架构而非单纯堆砌算力来提升效率[1] 技术架构创新:Engram模块与条件记忆 - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理如“伦敦在英国”的简单查询也需要经过多层注意力机制和前馈网络的昂贵计算,浪费GPU资源[3] - DeepSeek引入“条件记忆”原则和Engram模块,将静态模式存储与动态推理分离,将模型的“图书馆”或“字典”卸载到CPU或系统内存中,仅在需要时检索[3] - 这种设计为大语言模型解锁了新的效率水平,Engram是一种在不重载HBM的情况下高效“查找”基本信息的方法,从而释放HBM容量用于更复杂的推理任务[3] - 该架构直接解决了AI基础设施中最昂贵的HBM瓶颈,在现有硬件架构下提升效率,可减少昂贵的硬件升级需求[3] 硬件成本结构重塑:降低HBM依赖,放大DRAM价值 - Engram架构通过将静态存储与动态计算分离,最大限度地减少了对高速内存的需求,基础设施成本可能从昂贵的GPU向更具性价比的DRAM转移[5] - 一个1000亿参数的Engram模型,在FP16/BF16格式下每个参数2字节,意味着最低需要约200GB的系统DRAM[5] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13%[5] - 投资逻辑转向:计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能”;内存的价值已延伸至计算之外[5] 中国AI的竞争态势:约束诱导的创新 - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年中迅速缩窄了与全球前沿模型的性能差距[6] - DeepSeek V3.2在标准化基准测试中表现优异:MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力[6] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能不是来自更多的GPU,而是来自学会在约束条件下思考[6] - 中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新[7] 未来展望与市场影响 - 利用Engram内存架构,DeepSeek下一代模型V4在发布时将实现重大飞跃,特别是在编码和推理方面[7] - 该模型极有可能在消费级硬件上运行,消费级硬件可能就足够了,这意味着高水平AI推理的边际成本将进一步降低,使AI应用能更广泛部署[7] - 摩根士丹利重申了对中国内存和半导体设备本土化主题的看好[7] - 通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的大语言模型,其市场支出和采用势头表明上行空间可能被低估[7]