Workflow
大语言模型Agent记忆
icon
搜索文档
UIUC清华微软联合提出PlugMem:当Agent记忆告别「经历」,开始存储「经验」
机器之心· 2026-03-11 17:39
文章核心观点 - 微软研究院、UIUC和清华大学的研究团队提出了一种名为PlugMem的任务无关、可插拔的通用Agent记忆模块,其核心观点是:大语言模型智能体的长期记忆应以“知识”而非原始“经历”为基本单位进行存储和检索,从而提升其在不同任务间的决策能力和泛化性[1][2][6] 记忆模块的设计理念与结构 - **核心判断**:决策相关信息应以“知识”为单位存储,而非原始文本或轨迹[6][7] - **记忆结构**:将智能体的长期记忆明确拆分为三类:情景记忆(原始交互轨迹)、语义记忆(抽象的事实性命题)和程序记忆(可复用的行动处方)[8][14] - **知识图谱**:构建以“命题”和“处方”为节点的知识中心记忆图,而非实体图或文本图[8] - **检索目标**:智能体检索的是“我已经学会了什么”,而非“我曾经做过什么”[9] 技术实现与任务泛化能力 - **任务泛化**:同一套PlugMem记忆结构,在未做任何任务特化修改的情况下,被直接用于三类差异极大的评估任务:长时对话记忆(LongMemEval)、多跳知识问答(HotpotQA)和网页智能体决策(WebArena)[11][15][19] - **动态判断**:系统会根据当前任务动态判断并检索更需要的记忆类型(如回忆经历用情景记忆,推理事实用语义记忆,执行操作用程序记忆)[11][15] - **统一评估框架**:引入“信息密度”指标,将记忆对决策概率的信息增益归一化到所使用的记忆token数量上,从而在不同任务和记忆设计间进行统一比较[21][22][23] 实验评估与关键发现 - **通用性(RQ1)**:在三类任务中,PlugMem均能提升任务表现,同时显著降低智能体侧消耗的记忆token数量,证明知识级记忆单元能稳定提升单位记忆的决策价值[19] - **组件作用(RQ2)**:通过消融实验明确了各组件分工:检索模块决定记忆是否“可达”(可被有效利用),结构化模块决定记忆是否“可用”(检索内容质量),推理模块决定记忆是否“省着用”(使用效率,主要影响token消耗)[24][26][27][28][30] - **可迁移性(RQ3)**:在WebArena任务中,即使智能体在离线评估阶段无法写入新记忆,PlugMem存储的语义与程序性知识仍能显著提升新任务的成功率,表明记忆可作为可继承的经验被新智能体实例直接复用[31][32][34] 行业意义与潜在影响 - **设计思路转变**:PlugMem从记忆的基本单位、组织方式与评估视角三个层面,系统性地重审了智能体长期记忆问题,展示了一种更接近“经验继承”而非“历史回放”的记忆形态[35] - **提供新基线**:该思路为后续构建可迁移、可积累经验的通用智能体提供了新的设计基线[35]