UIUC清华微软联合提出PlugMem:当Agent记忆告别「经历」,开始存储「经验」
机器之心·2026-03-11 17:39

文章核心观点 - 微软研究院、UIUC和清华大学的研究团队提出了一种名为PlugMem的任务无关、可插拔的通用Agent记忆模块,其核心观点是:大语言模型智能体的长期记忆应以“知识”而非原始“经历”为基本单位进行存储和检索,从而提升其在不同任务间的决策能力和泛化性[1][2][6] 记忆模块的设计理念与结构 - 核心判断:决策相关信息应以“知识”为单位存储,而非原始文本或轨迹[6][7] - 记忆结构:将智能体的长期记忆明确拆分为三类:情景记忆(原始交互轨迹)、语义记忆(抽象的事实性命题)和程序记忆(可复用的行动处方)[8][14] - 知识图谱:构建以“命题”和“处方”为节点的知识中心记忆图,而非实体图或文本图[8] - 检索目标:智能体检索的是“我已经学会了什么”,而非“我曾经做过什么”[9] 技术实现与任务泛化能力 - 任务泛化:同一套PlugMem记忆结构,在未做任何任务特化修改的情况下,被直接用于三类差异极大的评估任务:长时对话记忆(LongMemEval)、多跳知识问答(HotpotQA)和网页智能体决策(WebArena)[11][15][19] - 动态判断:系统会根据当前任务动态判断并检索更需要的记忆类型(如回忆经历用情景记忆,推理事实用语义记忆,执行操作用程序记忆)[11][15] - 统一评估框架:引入“信息密度”指标,将记忆对决策概率的信息增益归一化到所使用的记忆token数量上,从而在不同任务和记忆设计间进行统一比较[21][22][23] 实验评估与关键发现 - 通用性(RQ1):在三类任务中,PlugMem均能提升任务表现,同时显著降低智能体侧消耗的记忆token数量,证明知识级记忆单元能稳定提升单位记忆的决策价值[19] - 组件作用(RQ2):通过消融实验明确了各组件分工:检索模块决定记忆是否“可达”(可被有效利用),结构化模块决定记忆是否“可用”(检索内容质量),推理模块决定记忆是否“省着用”(使用效率,主要影响token消耗)[24][26][27][28][30] - 可迁移性(RQ3):在WebArena任务中,即使智能体在离线评估阶段无法写入新记忆,PlugMem存储的语义与程序性知识仍能显著提升新任务的成功率,表明记忆可作为可继承的经验被新智能体实例直接复用[31][32][34] 行业意义与潜在影响 - 设计思路转变:PlugMem从记忆的基本单位、组织方式与评估视角三个层面,系统性地重审了智能体长期记忆问题,展示了一种更接近“经验继承”而非“历史回放”的记忆形态[35] - 提供新基线:该思路为后续构建可迁移、可积累经验的通用智能体提供了新的设计基线[35]

UIUC清华微软联合提出PlugMem:当Agent记忆告别「经历」,开始存储「经验」 - Reportify