核心观点 - DeepSeek通过创新的“Engram”模块和“条件记忆”机制,将存储与计算分离,减少了对昂贵高带宽内存的依赖,转而利用性价比更高的普通系统内存,正在改写AI的扩展法则,证明高效的混合架构是下一代AI的决胜点 [1] 技术架构创新 - DeepSeek的“Engram”模块基于“条件记忆”原则,将静态模式存储与动态推理分离,将模型的静态知识卸载到CPU或系统内存中,仅在需要时检索,从而大幅减少对HBM的需求 [1][3] - 该架构解决了当前AI基础设施中最昂贵的HBM瓶颈,通过在现有硬件架构下提升效率,有效减少昂贵的硬件升级需求 [3] - 这种设计为大语言模型解锁了新的效率水平,是一种无需重载HBM即可高效查找基本信息的方法,从而释放HBM容量用于更复杂的推理任务 [3] 硬件成本与经济学影响 - Engram架构通过减少对高速内存的需求,使基础设施成本可能从昂贵的GPU向更具性价比的DRAM转移 [5] - 一个1000亿参数的Engram模型在FP16/BF16精度下,最低需要约200GB的系统DRAM [5] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13% [5] - 计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能” [7] - 推理能力的提升超过了知识获取的增益,表明内存的价值已延伸至计算之外 [7] 性能表现与行业影响 - 尽管在先进算力等方面受限,中国领先的AI模型在过去两年迅速缩窄了与全球前沿模型的性能差距,这被归结为“约束诱导的创新” [5][6] - DeepSeek V3.2在MMLU基准测试中得分约为88.5%,在编码能力上约为72%,在推理和效率方面展现出强大竞争力 [5][6] - 中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新 [8] - 通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的大语言模型 [8] 未来展望与市场应用 - 利用Engram内存架构,DeepSeek的下一代模型V4在发布时预计将实现重大飞跃,特别是在编码和推理方面 [8] - 该模型极有可能在消费级硬件上运行,消费级显卡可能就足够,这意味着高水平AI推理的边际成本将进一步降低,使AI应用能更广泛部署而无需完全依赖昂贵的数据中心级GPU [8] - 摩根士丹利基于此技术趋势,重申了对中国内存和半导体设备本土化主题的看好 [8]
大摩眼中的DeepSeek:以存代算、以少胜多!