Workflow
Engram模型
icon
搜索文档
闪迪暴涨背后:三大催化共振,NAND成“必需品”,AI 重估存储价值
华尔街见闻· 2026-01-23 11:41
文章核心观点 - AI体系结构演进正驱动存储(特别是NAND闪存)从“成本项”转变为“核心生产要素”,引发行业价值重估,这构成了近期存储板块(如闪迪股价涨幅超100%)上涨的根本原因,而非单纯的周期反弹 [1][10][11] 英伟达的硬件架构革新 - 英伟达CEO黄仁勋在CES 2026提出ICMS(推理上下文内存存储)概念,指出“上下文”正取代算力成为AI新瓶颈,因模型上下文窗口迈向TB级,KVCache等对HBM的挤占难以为继 [1] - 英伟达解决方案是将上下文从HBM卸载至独立存储机架,如在DGX Vera Rubin NVL72 SuperPOD架构中首次引入专用推理存储机架,通过DPU与以太网接入计算体系 [2] - 此架构变化带来显著NAND需求:每个SuperPOD新增NAND约9.6PB,折算至单个NVL72机架增量约1.2PB;若2027年以SuperPOD形态出货10万个NVL72机架,将对应120EB新增NAND需求 [2] - 这部分AI基础设施新增需求,在一个年需求约1.1-1.2ZB的全球NAND市场中,占比接近10%,是结构性新增需求 [3] DeepSeek的算法模型突破 - DeepSeek的Engram模型通过“确定性内存访问”技术,可在计算前根据输入token精确预取所需内存片段,从而有效掩盖SSD与HBM间的延迟差距 [4][5] - 该技术验证了大规模参数可卸载至主机内存:一个1000亿参数规模的嵌入表可完全卸载,且性能损失低于3%;随着模型规模扩大,20-25%的参数天然适合成为“可卸载的静态记忆” [7] - 这使得NAND首次被系统性地纳入分层内存体系,成为AI的“慢速RAM”,承载庞大低频知识库,其战略价值因在模型架构中具备“不可替代性”而被重新定价 [8] ClaudeCode引领的应用层变革 - ClaudeCode的爆发标志着AI从“无状态”对话工具向“有状态”Agent演进,其需要长期工作记忆以支持反复读取修改文件、多轮调试回溯、持续数天的会话状态 [9][12] - 这种“有状态系统”的工作记忆无法长期驻留于昂贵HBM,而BlueField DPU与NAND的组合提供了成本可控的解决方案,使Agent状态常驻NAND层 [9] - 随着AI Agent渗透率提升,存储需求函数将与推理调用次数脱钩,转而与“状态持续时间”挂钩,形成指数级放大的全新增长逻辑 [9] 技术路径汇聚与行业影响 - 三条原本分散的技术路径在2026年初汇聚:英伟达在硬件架构创造新场景,DeepSeek在模型验证可行性,ClaudeCode在应用放大刚性需求,共同构成AI体系结构变化的信号 [10][13] - 存储行业正同时具备周期复苏、长期需求及结构性价值重估三重驱动,其定价逻辑发生跃迁,市场开始重新评估AI时代真正的基础设施 [11]
DeepSeek:基于可扩展查找的条件记忆大型语言模型稀疏性的新维度技术,2026报告
文章核心观点 - 北京大学与DeepSeek-AI联合提出名为“Engram”的全新架构,通过引入“条件记忆”作为与“条件计算”互补的稀疏性维度,旨在解决当前Transformer架构缺乏原生知识查找原语的问题,从而在提升模型推理能力的同时,打破GPU显存对模型规模的物理限制 [2] 技术架构创新 - 研究指出语言建模包含组合推理与知识检索两类子任务,现有Transformer通过昂贵的运行时计算来重建静态查找表,浪费计算深度 [3] - Engram模块复兴并现代化了N-gram概念,通过对文本后缀进行哈希映射,以O(1)时间复杂度直接检索静态嵌入向量,相当于为模型外挂一个可瞬间查询的“知识库” [3] - Engram架构将“记忆”与“计算”解耦,通过在浅层网络直接检索静态知识,将主干网络解放出来以处理复杂的全局上下文和逻辑推理,从而有效地“加深”了网络 [5] 性能与效率发现 - 研究发现“稀疏性分配定律”,在固定总参数和训练计算量下,MoE专家与Engram嵌入的比例存在一条“U型”性能曲线 [4] - 将约20%至25%的稀疏参数预算分配给Engram模块,能在保持计算成本不变的同时显著降低验证集损失 [4] - 训练了一个270亿参数(27B)的Engram模型,在同等参数量和激活开销下,相比纯MoE-27B基线模型,在多项任务上取得全面超越:MMLU(+3.4)、CMMLU(+4.0)、通用推理BBH(+5.0)、代码生成HumanEval(+3.0)、数学解题MATH(+2.4) [4] - 在长文本处理上,Engram-27B在“大海捞针”等多查询检索任务中,准确率从基线模型的84.2%提升至97.0% [8] 系统工程与商业潜力 - Engram的检索机制是确定性的,允许系统在计算前一层网络时,异步地从主机内存(CPU RAM)中预取所需嵌入向量,实现计算与通信的重叠 [6] - 实验成功在少量GPU显存下,将一个1000亿参数(100B)规模的Engram表完全卸载到主机内存,仅带来不到3%的端到端推理延迟 [6] - 该架构可利用N-gram分布的齐普夫定律构建多级缓存层次,将高频知识保留在GPU显存,将长尾低频知识放入海量的CPU内存或SSD,为在有限硬件资源下部署超大规模模型开辟新路径,对降低大模型部署成本具有商业价值 [7] 行业意义与未来展望 - 该研究标志着大语言模型的稀疏性设计从单一的“计算稀疏”(MoE)迈向了“计算-记忆双重稀疏”的新阶段 [9] - 条件记忆有望成为下一代稀疏模型的标准配置,为未来万亿参数级别的模型提供兼具高性能与低成本的解决方案 [9] - 这预示大模型设计哲学可能从“大算力出奇迹”向“算力与记忆协同进化”的深刻转型 [9]