约束诱导的创新
搜索文档
大摩眼中的DeepSeek:以存代算、以少胜多
36氪· 2026-01-22 17:09
文章核心观点 - DeepSeek通过创新的“Engram”模块和“条件记忆”机制,正在改变大语言模型的构建方式,其核心在于将存储与计算分离,从而减少对昂贵高带宽内存的依赖,转而利用性价比更高的普通系统内存,这代表了下一代AI发展的关键方向,即通过更聪明的混合架构而非单纯堆砌算力来提升效率[1] 技术架构创新:Engram模块与条件记忆 - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理如“伦敦在英国”的简单查询也需要经过多层注意力机制和前馈网络的昂贵计算,浪费GPU资源[3] - DeepSeek引入“条件记忆”原则和Engram模块,将静态模式存储与动态推理分离,将模型的“图书馆”或“字典”卸载到CPU或系统内存中,仅在需要时检索[3] - 这种设计为大语言模型解锁了新的效率水平,Engram是一种在不重载HBM的情况下高效“查找”基本信息的方法,从而释放HBM容量用于更复杂的推理任务[3] - 该架构直接解决了AI基础设施中最昂贵的HBM瓶颈,在现有硬件架构下提升效率,可减少昂贵的硬件升级需求[3] 硬件成本结构重塑:降低HBM依赖,放大DRAM价值 - Engram架构通过将静态存储与动态计算分离,最大限度地减少了对高速内存的需求,基础设施成本可能从昂贵的GPU向更具性价比的DRAM转移[5] - 一个1000亿参数的Engram模型,在FP16/BF16格式下每个参数2字节,意味着最低需要约200GB的系统DRAM[5] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13%[5] - 投资逻辑转向:计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能”;内存的价值已延伸至计算之外[5] 中国AI的竞争态势:约束诱导的创新 - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年中迅速缩窄了与全球前沿模型的性能差距[6] - DeepSeek V3.2在标准化基准测试中表现优异:MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力[6] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能不是来自更多的GPU,而是来自学会在约束条件下思考[6] - 中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新[7] 未来展望与市场影响 - 利用Engram内存架构,DeepSeek下一代模型V4在发布时将实现重大飞跃,特别是在编码和推理方面[7] - 该模型极有可能在消费级硬件上运行,消费级硬件可能就足够了,这意味着高水平AI推理的边际成本将进一步降低,使AI应用能更广泛部署[7] - 摩根士丹利重申了对中国内存和半导体设备本土化主题的看好[7] - 通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的大语言模型,其市场支出和采用势头表明上行空间可能被低估[7]
大摩眼中的DeepSeek:以存代算、以少胜多!
硬AI· 2026-01-22 15:34
核心观点 - DeepSeek通过其独创的Engram架构与“条件记忆”机制,将存储与计算分离,用高性价比的DRAM置换稀缺的HBM资源,正在改写AI的扩展法则,证明下一代AI的制胜点在于高效的混合架构而非暴力堆砌GPU [2][3][4] 技术架构:Engram模块与“条件记忆” - 当前Transformer模型在记忆和调用简单静态事实时效率极低,处理“伦敦在英国”这类简单查询也需要昂贵的计算 [8] - Engram模块的核心是引入“条件记忆”原则,将静态模式存储与动态推理分离,将模型的静态知识卸载到CPU或系统DRAM中,仅在需要时检索 [9] - 该设计为大语言模型解锁了新的效率水平,是一种无需重载HBM即可高效查找基本信息的方法,从而释放HBM容量用于更复杂的推理任务 [9] - 该架构直接解决了AI基础设施中最昂贵的瓶颈——HBM,通过在现有硬件架构下提升效率,减少昂贵的硬件升级需求 [9] 基础设施经济学影响 - Engram架构通过分离存储与计算,最大程度减少对高速HBM的需求,可能导致基础设施成本从昂贵的GPU向更具性价比的DRAM转移 [12] - 一个1000亿参数的Engram模型(假设FP16/BF16下每个参数2字节)最低需要约200GB的系统DRAM [12] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13% [12] - 投资逻辑转变:成本结构可能从GPU向内存转移;计算适中但内存巨大的配置可能提供更高的“每美元性能”;内存的价值已延伸至计算之外 [13][14][15] 中国AI的“约束诱导创新” - 尽管在先进算力、硬件获取和训练规模上受限,中国领先的AI模型在过去两年迅速缩小了与全球前沿模型的性能差距 [17] - DeepSeek V3.2在MMLU得分约为88.5%,编码能力约为72%,在推理和效率方面展现出强大竞争力 [17] - 中国AI的发展转向算法效率、系统设计和部署实用主义,AI能力的下一次飞跃可能来自学会在约束条件下思考,而非更多GPU [17] - 中国AI的进步可能越来越取决于绕过硬件瓶颈的算法和系统级创新,而非直接缩小硬件差距 [18] 未来展望与硬件门槛降低 - 利用Engram内存架构,DeepSeek下一代模型V4预计在发布时将实现重大飞跃,特别是在编码和推理方面 [20] - 该模型极有可能在消费级硬件上运行,消费级硬件(如RTX 5090)可能就足够,这将进一步降低高水平AI推理的边际成本 [20] - AI应用将能够更广泛地部署,无需完全依赖昂贵的数据中心级GPU集群 [20] - 通过将内存与计算解耦,中国正在构建更聪明且结构更高效的大语言模型,其AI市场的支出和采用势头表明上行空间可能被低估 [21]
大摩眼中的DeepSeek:以存代算、以少胜多!
华尔街见闻· 2026-01-22 10:48
核心观点 - DeepSeek通过创新的“Engram”模块和“条件记忆”机制,将存储与计算分离,减少了对昂贵高带宽内存的依赖,转而利用性价比更高的普通系统内存,正在改写AI的扩展法则,证明高效的混合架构是下一代AI的决胜点 [1] 技术架构创新 - DeepSeek的“Engram”模块基于“条件记忆”原则,将静态模式存储与动态推理分离,将模型的静态知识卸载到CPU或系统内存中,仅在需要时检索,从而大幅减少对HBM的需求 [1][3] - 该架构解决了当前AI基础设施中最昂贵的HBM瓶颈,通过在现有硬件架构下提升效率,有效减少昂贵的硬件升级需求 [3] - 这种设计为大语言模型解锁了新的效率水平,是一种无需重载HBM即可高效查找基本信息的方法,从而释放HBM容量用于更复杂的推理任务 [3] 硬件成本与经济学影响 - Engram架构通过减少对高速内存的需求,使基础设施成本可能从昂贵的GPU向更具性价比的DRAM转移 [5] - 一个1000亿参数的Engram模型在FP16/BF16精度下,最低需要约200GB的系统DRAM [5] - 相比英伟达Vera Rubin系统每个CPU配备的1.5TB DRAM,DeepSeek的架构意味着每台系统对商品化DRAM的使用量将增加约13% [5] - 计算适中但内存巨大的配置,可能比单纯的GPU扩展提供更高的“每美元性能” [7] - 推理能力的提升超过了知识获取的增益,表明内存的价值已延伸至计算之外 [7] 性能表现与行业影响 - 尽管在先进算力等方面受限,中国领先的AI模型在过去两年迅速缩窄了与全球前沿模型的性能差距,这被归结为“约束诱导的创新” [5][6] - DeepSeek V3.2在MMLU基准测试中得分约为88.5%,在编码能力上约为72%,在推理和效率方面展现出强大竞争力 [5][6] - 中国AI的进步可能越来越不取决于直接缩小硬件差距,而是取决于绕过硬件瓶颈的算法和系统级创新 [8] - 通过将内存与计算解耦,中国正在构建不仅更聪明而且结构更高效的大语言模型 [8] 未来展望与市场应用 - 利用Engram内存架构,DeepSeek的下一代模型V4在发布时预计将实现重大飞跃,特别是在编码和推理方面 [8] - 该模型极有可能在消费级硬件上运行,消费级显卡可能就足够,这意味着高水平AI推理的边际成本将进一步降低,使AI应用能更广泛部署而无需完全依赖昂贵的数据中心级GPU [8] - 摩根士丹利基于此技术趋势,重申了对中国内存和半导体设备本土化主题的看好 [8]