文章核心观点 - 大模型演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式面临物理极限,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极 [1] - 模型记忆可解构为短期、中期、长期三个垂直层级,各层级对应不同的软件技术与底层存储硬件需求,构成了分析AI时代基础设施投资的结构化范式 [4][8] - 短期记忆是单次推理的“当前视野”,核心矛盾在于KV Cache对显存容量与带宽的双重挤占,软件优化与硬件升级是突破“显存墙”与“延迟墙”的关键 [4][17] - 中期记忆保障跨会话的情景连续性,是Agent的基石,其动态管理系统影响Agent能力上限,也是构建私有数据壁垒的核心变量 [4][15] - 长期记忆支撑模型从预训练走向“持续进化”,旨在打破预训练截止时间的限制,其实现路径将催生新的软硬件需求,并模糊训练与推理的界限 [4][5][45] 模型记忆分层框架总览 - 公司提出原创的模型记忆分层框架,从功能维度将记忆解构为短期、中期、长期三个垂直层级 [8] - 短期记忆构成大模型单次推理的“当前视野”,是高频读写、对延迟极度敏感的“热数据” [4][17] - 中期记忆保障跨会话的情景连续性,是Agent的基石,承载从被动检索向主动治理的范式转移 [4][15] - 长期记忆支撑模型从预训练走向“持续进化”,旨在打破预训练截止时间的限制,实现知识的持续积累 [5][45] - 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [12] 不同AI场景对应的记忆分层系统 - 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [13] - 推理阶段目前由短期记忆主导,其核心瓶颈在于KV Cache对HBM容量的挤占,推理成本对显存利用率较为敏感 [14] - Agent的落地则需要中期记忆作为支撑,中期记忆的活跃度直接决定了Agent在复杂生产环境中的交付上限,是未来AI应用层突破的核心变量 [15] 短期记忆:即时交互下的吞吐与延迟博弈 - 短期记忆的物理载体是显存中的KV Cache,其显存占用随上下文长度呈线性增长,传统内存管理技术会导致显存浪费率高达60-80% [17][19] - 面临物理资源、计算模式以及Agent场景的三重博弈:1) 容量与带宽的双重“显存墙”;2) 预填充(计算密集型)与解码(存储密集型)阶段的算力权衡;3) Agent场景下因缺乏记忆管理导致的重复计算 [19][20] - 软件解法包括单卡显存虚拟化与集群算力调度优化,例如PagedAttention机制可将显存有效利用率提升到96%以上,PD分离调度可优化集群资源 [22] - 模型架构前沿探索包括线性注意力机制(如RetNet、Mamba)和无限注意力(Infini-attention),后者是支撑Gemini 1.5 Pro百万上下文窗口的关键,能实现114倍的记忆状态压缩 [25][26] - 硬件需求对应三类:1) HBM用以承接KV Cache膨胀;2) 片上SRAM负责处理瞬时状态,提供更低延迟;3) NVLink等互连技术编织分散的显存资源池 [27] 中期记忆:AI Agent的基石 - 中期记忆旨在解决短期记忆的物理瓶颈和长期记忆的调用时延矛盾,是一个依赖“存储-检索-更新-遗忘”动态生命周期管理的复杂系统 [29][30] - 面临三大挑战:1) 存储环节,向量检索产生大量随机I/O延迟,DRAM与高性能NVMe SSD的随机访问延迟差距达1000倍;2) 检索环节,语义相似但逻辑冲突导致“上下文污染”;3) 更新和遗忘环节,低价值信息挤占上下文窗口 [30][31] - 软件解法中,RAG技术栈正呈现结构化趋势:向量RAG解决“找得到”;分层RAG(如RAPTOR)通过递归摘要树解决“看不全”;GraphRAG引入知识图谱解决“想得透”,在处理全局性查询时能实现9-43倍的上下文Token压缩 [32][34][35] - Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中相比基线准确率提升43.7%,同时Token节省35.24% [37][40][42] - 中期记忆的工程化落地将拉动向量数据库与图数据库的增量需求,并有望沉淀为企业私有数据资产 [42] - 硬件需求主要对应三类:1) 大容量DRAM用于常驻热点索引与图谱拓扑;2) 企业级NVMe SSD承载海量原始内容切片与部分索引,需满足高IOPS和低延迟;3) 高性能CPU负责向量距离计算与图遍历等逻辑密集型任务 [43][44] 长期记忆:知识固化的三条路径与存储新蓝海 - 长期记忆让AI打破预训练截止时间的限制,实现知识的积累与实时更新,模型训练与推理的界限正在逐渐模糊 [45] - 路线一:内隐参数——通过微调或训练将知识固化进模型参数,更新慢但稳定,写入成本较高 [46] - 内隐参数的软件解法包括测试时训练机制(如Google Titans)和存量改造(如LoRA),前者通过实时计算梯度更新记忆模块权重 [47][48] - 内隐参数的硬件需求推动推理芯片“训练化”重构:计算需回归FP16或BF16高精度;HBM不仅存储权重,还需存储梯度信息 [50][51] - 路线二:外显语义——将多次会话沉淀的结构化信息作为可查阅的“百科全书”,核心诉求是可解释、可编辑、可审计 [51] - 外显语义的软件栈催生多类数据库需求:键值型数据库用于状态与偏好管理;文档型数据库用于语义对象存储;关系型数据库用于权限与规则管控;向量数据库或索引用于相似性检索 [51][52] - 外显语义的硬件需求本质是PB级海量温数据与高并发随机读取,催生企业级NVMe SSD、CXL内存池化以及高性能CPU的需求 [54] - 路线三:Engram启发下的参数化查表——由DeepSeek提出,将静态、模板化知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,实现O(1)时间复杂度的静态查表 [56] - Engram的产业意义在于改变记忆对硬件的依赖,允许将大规模嵌入表从有限且昂贵的HBM转移到成本更低、容量更大的DRAM,并通过CXL、PCIe 5.0等高速互连通道访问 [58]
中金 | AI十年展望(二十七):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金点睛·2026-02-13 07:36