Workflow
Google MIRAS
icon
搜索文档
中金::人工智能十年展望):越过“遗忘”的边界,模型记忆的三层架构与产业机遇
中金· 2026-02-24 22:20
报告行业投资评级 * 报告维持相关公司的盈利预测、目标价及评级不变 [6] 报告的核心观点 * 报告提出,大模型的演进史是与“遗忘”抗争的历史,当前以高昂算力对抗遗忘的粗放模式正面临物理极限 [3] * 报告认为,2026年及之后的AI基础设施主战场将增加“模型记忆”这一极,AI正从单次推理的“计算器”进化为拥有连贯认知的“动态智能系统” [3][14] * 报告原创性地将模型记忆解构为短期、中期、长期三个垂直层级,并系统剖析了各层级对应的软件技术、硬件需求及产业机遇 [14] 根据相关目录分别进行总结 模型记忆重构下的存储范式与软硬件红利 * 报告提出,模型记忆正经历从静态数据存储向动态基础设施的质变 [14] * 报告从功能维度将记忆解构为短期、中期、长期三个层级,并分析了各层级在软件技术与底层硬件需求上的逻辑映射 [14] * 短期记忆对应高频读写的“热数据”,其软件技术包括KV Cache压缩与管理、PD分离调度及无限注意力等前沿探索,硬件需求锚定HBM与片上SRAM [4][16] * 中期记忆是Agent的基石,对应“温数据”,软件技术包括GraphRAG与MemoryOS等,硬件需求为大容量DRAM与企业级SSD [4][16] * 长期记忆支撑模型持续进化,报告归纳了内隐参数、外显语义、参数化查表三条实现路径,将催生多类数据库与存算硬件设备需求 [5][16] AI不同场景对应的记忆分层系统:训练、推理、Agent * 在AI基础设施体系中,数据流转围绕训练、推理与Agent运行三个核心阶段,构建起由短、中、长期记忆协同的多级存储架构 [20] * 训练阶段以长期记忆写入为核心,本质是将海量语料固化为模型参数,工程压力集中于HBM的计算带宽与SSD的检查点持久化写入 [21] * 推理阶段以短期记忆为主导,核心瓶颈在于KV Cache对HBM容量的挤占,若启用检索增强或Agent能力,还会访问存储在NVMe SSD/DRAM中的中期记忆 [23] * Agent运行阶段标志着AI向长期运行状态机跨越,中期记忆跃升为系统智能的连续性载体,其活跃度直接决定了Agent在复杂生产环境中的交付上限 [24] 短期记忆:即时交互下的吞吐与延迟的博弈 * 短期记忆构成大模型单次推理的“当前视野”,其物理载体是显存中的KV Cache [28] * 短期记忆面临物理资源、计算模式及Agent场景的三重挑战:1)KV Cache显存占用随上下文长度线性增长,传统内存管理技术导致显存浪费率高达**60-80%** [31][32];2)预填充与解码阶段存在算力权衡,混合部署会导致资源争抢 [39];3)Agent场景下缺乏高效记忆管理,导致重复计算和资源浪费 [39] * 软件解法包括:1)单卡显存虚拟化,如PagedAttention机制可将显存有效利用率提升到**96%** 以上 [43];2)PD分离优化集群算力调度;3)模型架构前沿探索,如无限注意力机制可实现**114倍** 的记忆状态压缩 [48][49] * 硬件需求主要对应三类:1)HBM用以承接KV Cache膨胀;2)片上SRAM负责处理瞬时状态;3)NVLink等互连技术编织分散的显存资源池 [50] 中期记忆:AI Agent的基石 * 中期记忆承载Agent的情景连续性,旨在解决短期记忆的物理瓶颈和长期记忆的调用时延问题 [56][60] * 中期记忆系统面临三大挑战:1)存储环节,SSD随机读取延迟是DRAM的**1000倍** [63];2)检索环节,易导致“上下文污染” [63];3)更新和遗忘环节,低价值信息挤占上下文窗口 [63] * 软件解法呈现结构化趋势:1)向量RAG是基础方案;2)分层RAG通过构建递归摘要树提升连贯性;3)GraphRAG引入知识图谱,在处理全局性查询时实现了**9-43倍** 的上下文Token压缩 [64][65][67] * Memory OS架构赋予Agent主动管理记忆生命周期的能力,在测试中可节省**35%** 的Token消耗 [68][74] * 硬件需求主要对应三类:1)大容量DRAM常驻热点索引与图谱拓扑;2)企业级NVMe SSD存储海量原始切片与高精度索引;3)CPU负责复杂的检索逻辑和图遍历 [59][77] 长期记忆:知识固化的三条路径与存储新蓝海 * 长期记忆旨在打破预训练截止时间的限制,实现知识的持续积累,模型训练与推理的界限正在模糊 [5][86] * 路线一(内隐参数):通过微调或训练将知识固化进模型参数,如Google Titans的测试时训练机制 [91][95] * 路线二(外显语义):将多次会话沉淀的结构化信息存储为可查阅的“百科全书”,催生键值型、文档型、关系型及向量数据库等多类数据库需求 [97][99] * 路线三(参数化查表):如DeepSeek Engram架构,将静态知识以内嵌参数表形式保留,通过确定性稀疏查找在推理期按需调用,允许将大规模嵌入表迁移到成本更低的系统内存 [104][108] * 长期记忆的硬件需求因路径而异:内隐参数路径要求推理芯片具备训练能力并抬升HBM需求;外显语义路径是重存储架构,催生企业级SSD、CXL内存池及高性能CPU需求;参数化查表路径则可能提升对DRAM模组和高速互连芯片的需求 [96][98][103][108][109]