中金 | AI十年展望（二十七）：越过“遗忘”的边界，模型记忆的三层架构与产业机遇

文章核心观点 - 大模型演进史是与“遗忘”抗争的历史，当前以高昂算力对抗遗忘的粗放模式面临物理极限，2026年及之后的AI基础设施主战场将增加“模型记忆”这一极 [1] - 模型记忆可解构为短期、中期、长期三个垂直层级，各层级对应不同的软件技术与底层存储硬件需求，构成了分析AI时代基础设施投资的结构化范式 [4][8] - 短期记忆是单次推理的“当前视野”，核心矛盾在于KV Cache对显存容量与带宽的双重挤占，软件优化与硬件升级是突破“显存墙”与“延迟墙”的关键 [4][17] - 中期记忆保障跨会话的情景连续性，是Agent的基石，其动态管理系统影响Agent能力上限，也是构建私有数据壁垒的核心变量 [4][15] - 长期记忆支撑模型从预训练走向“持续进化”，旨在打破预训练截止时间的限制，其实现路径将催生新的软硬件需求，并模糊训练与推理的界限 [4][5][45] 模型记忆分层框架总览 - 公司提出原创的模型记忆分层框架，从功能维度将记忆解构为短期、中期、长期三个垂直层级 [8] - 短期记忆构成大模型单次推理的“当前视野”，是高频读写、对延迟极度敏感的“热数据” [4][17] - 中期记忆保障跨会话的情景连续性，是Agent的基石，承载从被动检索向主动治理的范式转移 [4][15] - 长期记忆支撑模型从预训练走向“持续进化”，旨在打破预训练截止时间的限制，实现知识的持续积累 [5][45] - 在AI基础设施体系中，数据流转围绕训练、推理与Agent运行三个核心阶段，构建起由短、中、长期记忆协同的多级存储架构 [12] 不同AI场景对应的记忆分层系统 - 训练阶段以长期记忆写入为核心，本质是将海量语料固化为模型参数，工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [13] - 推理阶段目前由短期记忆主导，其核心瓶颈在于KV Cache对HBM容量的挤占，推理成本对显存利用率较为敏感 [14] - Agent的落地则需要中期记忆作为支撑，中期记忆的活跃度直接决定了Agent在复杂生产环境中的交付上限，是未来AI应用层突破的核心变量 [15] 短期记忆：即时交互下的吞吐与延迟博弈 - 短期记忆的物理载体是显存中的KV Cache，其显存占用随上下文长度呈线性增长，传统内存管理技术会导致显存浪费率高达60-80% [17][19] - 面临物理资源、计算模式以及Agent场景的三重博弈：1) 容量与带宽的双重“显存墙”；2) 预填充（计算密集型）与解码（存储密集型）阶段的算力权衡；3) Agent场景下因缺乏记忆管理导致的重复计算 [19][20] - 软件解法包括单卡显存虚拟化与集群算力调度优化，例如PagedAttention机制可将显存有效利用率提升到96%以上，PD分离调度可优化集群资源 [22] - 模型架构前沿探索包括线性注意力机制（如RetNet、Mamba）和无限注意力（Infini-attention），后者是支撑Gemini 1.5 Pro百万上下文窗口的关键，能实现114倍的记忆状态压缩 [25][26] - 硬件需求对应三类：1) HBM用以承接KV Cache膨胀；2) 片上SRAM负责处理瞬时状态，提供更低延迟；3) NVLink等互连技术编织分散的显存资源池 [27] 中期记忆：AI Agent的基石 - 中期记忆旨在解决短期记忆的物理瓶颈和长期记忆的调用时延矛盾，是一个依赖“存储-检索-更新-遗忘”动态生命周期管理的复杂系统 [29][30] - 面临三大挑战：1) 存储环节，向量检索产生大量随机I/O延迟，DRAM与高性能NVMe SSD的随机访问延迟差距达1000倍；2) 检索环节，语义相似但逻辑冲突导致“上下文污染”；3) 更新和遗忘环节，低价值信息挤占上下文窗口 [30][31] - 软件解法中，RAG技术栈正呈现结构化趋势：向量RAG解决“找得到”；分层RAG（如RAPTOR）通过递归摘要树解决“看不全”；GraphRAG引入知识图谱解决“想得透”，在处理全局性查询时能实现9-43倍的上下文Token压缩 [32][34][35] - Memory OS架构赋予Agent主动管理记忆生命周期的能力，在测试中相比基线准确率提升43.7%，同时Token节省35.24% [37][40][42] - 中期记忆的工程化落地将拉动向量数据库与图数据库的增量需求，并有望沉淀为企业私有数据资产 [42] - 硬件需求主要对应三类：1) 大容量DRAM用于常驻热点索引与图谱拓扑；2) 企业级NVMe SSD承载海量原始内容切片与部分索引，需满足高IOPS和低延迟；3) 高性能CPU负责向量距离计算与图遍历等逻辑密集型任务 [43][44] 长期记忆：知识固化的三条路径与存储新蓝海 - 长期记忆让AI打破预训练截止时间的限制，实现知识的积累与实时更新，模型训练与推理的界限正在逐渐模糊 [45] - 路线一：内隐参数——通过微调或训练将知识固化进模型参数，更新慢但稳定，写入成本较高 [46] - 内隐参数的软件解法包括测试时训练机制（如Google Titans）和存量改造（如LoRA），前者通过实时计算梯度更新记忆模块权重 [47][48] - 内隐参数的硬件需求推动推理芯片“训练化”重构：计算需回归FP16或BF16高精度；HBM不仅存储权重，还需存储梯度信息 [50][51] - 路线二：外显语义——将多次会话沉淀的结构化信息作为可查阅的“百科全书”，核心诉求是可解释、可编辑、可审计 [51] - 外显语义的软件栈催生多类数据库需求：键值型数据库用于状态与偏好管理；文档型数据库用于语义对象存储；关系型数据库用于权限与规则管控；向量数据库或索引用于相似性检索 [51][52] - 外显语义的硬件需求本质是PB级海量温数据与高并发随机读取，催生企业级NVMe SSD、CXL内存池化以及高性能CPU的需求 [54] - 路线三：Engram启发下的参数化查表——由DeepSeek提出，将静态、模板化知识以内嵌参数表形式保留，通过确定性稀疏查找在推理期按需调用，实现O(1)时间复杂度的静态查表 [56] - Engram的产业意义在于改变记忆对硬件的依赖，允许将大规模嵌入表从有限且昂贵的HBM转移到成本更低、容量更大的DRAM，并通过CXL、PCIe 5.0等高速互连通道访问 [58]