模型记忆 - 财报，业绩电话会，研报，新闻

模型记忆

搜索文档

中金· 2026-02-24 22:20

报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出，大模型的演进史是与“遗忘”抗争的历史，当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为，2026年及之后的AI基础设施主战场将增加“模型记忆”这一极，AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级，并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结模型记忆重构下的存储范式与软硬件红利 * 报告提出，模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级，并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”，其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索，硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石，对应“温数据”，软件技术包括GraphRAG与MemoryOS等，硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化，报告归纳了内隐参数、外显语义、参数化查表三条实现路径，将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统：训练、推理、Agent * 在AI基础设施体系中，数据流转围绕训练、推理与Agent运行三个核心阶段，构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心，本质是将海量语料固化为模型参数，工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导，核心瓶颈在于KV Cache对HBM容量的挤占，若启用检索增强或Agent能力，还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越，中期记忆跃升为系统智能的连续性载体，其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆：即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”，其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战：1）KV Cache显存占用随上下文长度线性增长，传统内存管理技术导致显存浪费率高达**60-80%** [31][32]；2）预填充与解码阶段存在算力权衡，混合部署会导致资源争抢 [39]；3）Agent场景下缺乏高效记忆管理，导致重复计算和资源浪费 [39] * 软件解法包括：1）单卡显存虚拟化，如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43]；2）PD分离优化集群算力调度；3）模型架构前沿探索，如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类：1）HBM用以承接KV Cache膨胀；2）片上SRAM负责处理瞬时状态；3）NVLink等互连技术编织分散的显存资源池 [50] 中期记忆：AI Agent的基石 * 中期记忆承载Agent的情景连续性，旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战：1）存储环节，SSD随机读取延迟是DRAM的**1000倍** [63]；2）检索环节，易导致“上下文污染” [63]；3）更新和遗忘环节，低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势：1）向量RAG是基础方案；2）分层RAG通过构建递归摘要树提升连贯性；3）GraphRAG引入知识图谱，在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力，在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类：1）大容量DRAM常驻热点索引与图谱拓扑；2）企业级NVMe SSD存储海量原始切片与高精度索引；3）CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆：知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制，实现知识的持续积累，模型训练与推理的界限正在模糊 [5][86] * 路线一（内隐参数）：通过微调或训练将知识固化进模型参数，如Google Titans的测试时训练机制 [91][95] * 路线二（外显语义）：将多次会话沉淀的结构化信息存储为可查阅的“百科全书”，催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三（参数化查表）：如DeepSeek Engram架构，将静态知识以内嵌参数表形式保留，通过确定性稀疏查找在推理期按需调用，允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异：内隐参数路径要求推理芯片具备训练能力并抬升HBM需求；外显语义路径是重存储架构，催生企业级SSD、CXL内存池及高性能CPU需求；参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]