核心观点 - DeepSeek通过其独创的Engram架构与“条件记忆”机制,将存储与计算分离,用高性价比的DRAM置换稀缺的HBM资源,正在改写AI的扩展法则,证明下一代AI的制胜点在于高效的混合架构而非暴力堆砌GPU [2][3][4] 技术架构:Engram模块与“条件记忆” - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理“伦敦在英国”这类简单查询也需要昂贵的计算 [8] - Engram模块的核心是引入“条件记忆”原则,将静态模式存储与动态推理分离,将模型的静态知识卸载到CPU或系统DRAM中,仅在需要时检索 [9] - 该设计为大语言模型解锁了新的效率水平,是一种无需重载HBM即可高效查找基本信息的方法,从而释放HBM容量用于更复杂的推理任务 [9] - 该架构直接解决了AI基础设施中最昂贵的瓶颈——HBM,通过在现有硬件架构下提升效率,减少昂贵的硬件升级需求 [9] 基础设施经济学影响 - Engram架构通过分离存储与计算,最大程度减少对高速HBM的需求,可能导致基础设施成本从昂贵的GPU向更具性价比的DRAM转移 [12] - 一个1000亿参数的Engram模型(假设FP16/BF16下每个参数2字节)最低需要约200GB的系统DRAM [12] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13% [12] - 投资逻辑转变:成本结构可能从GPU向内存转移;计算适中但内存巨大的配置可能提供更高的“每美元性能”;内存的价值已延伸至计算之外 [13][14][15] 中国AI的“约束诱导创新” - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年迅速缩小了与全球前沿模型的性能差距 [17] - DeepSeek V3.2在MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力 [17] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能来自学会在约束条件下思考,而非更多GPU [17] - 中国AI的进步可能越来越取决于绕过硬件瓶颈的算法和系统级创新,而非直接缩小硬件差距 [18] 未来展望与硬件门槛降低 - 利用Engram内存架构,DeepSeek下一代模型V4预计在发布时将实现重大飞跃,特别是在编码和推理方面 [20] - 该模型极有可能在消费级硬件上运行,消费级硬件(如RTX 5090)可能就足够,这将进一步降低高水平AI推理的边际成本 [20] - AI应用将能够更广泛地部署,无需完全依赖昂贵的数据中心级GPU集群 [20] - 通过将内存与计算解耦,中国正在构建更聪明且结构更高效的大语言模型,其AI市场的支出和采用势头表明上行空间可能被低估 [21]
大摩眼中的DeepSeek:以存代算、以少胜多!
硬AI·2026-01-22 15:34