Workflow
智能体记忆机制
icon
搜索文档
新一代记忆智能体框架MIA:让智能体告别「失忆式工作」,在持续进化中变强
机器之心· 2026-04-19 12:31
研究背景与问题 - 当前大多数智能体处于“失忆式工作”模式,每次检索从零开始,推理路径无法沉淀,失败无法转化为经验,难以在深度研究中持续变强[3] - 现有方法尝试基于历史方案生成规划,但受限于预训练范式,常出现“决策器”不擅长规划、“执行器”缺乏规划执行能力的问题,导致记忆增长但智能未提升[3] - 核心问题在于:是否存在将经验转化为能力的智能体记忆机制[4] 解决方案:MIA框架 - 上海创智学院与华东师范大学联合团队提出Memory Intelligence Agent (MIA),一个面向深度研究场景的新一代记忆智能体框架[4] - MIA构建了基于“Planner–Executor–Manager”架构的记忆系统:Planner是战术大脑,能制定并实时调整研究计划;Executor是执行专家,能解读并遵循复杂研究蓝图;Manager是终极管理员,优化记忆存储以消除冗余[6] - MIA的核心亮点在于:构建了从“逐次推理”到“可积累的研究闭环”的系统[8] 核心技术机制 - MIA作为持续运行的Planning–Execution–Memory闭环系统,在每次任务中经历:经验调用 → 协同推理 → 经验沉淀,并反哺后续决策[10] - **经验调用**:通过三维检索机制调用历史经验,包括语义相似度、价值奖励和频率奖励,并引入失败轨迹作为约束以避免重复错误[11] - **协同推理**:将推理解耦为Planner(拆解任务、生成步骤)与Executor(按步骤执行)的协作过程,通过Reflect–Replan形成反馈闭环,执行受阻时自动重规划[11] - **经验沉淀**:对两种记忆同时更新,包括压缩轨迹形成结构化非参数记忆,以及在线更新Planner参数将经验转化为参数记忆,实现从经验存储到能力内化的跃迁[13] 核心创新点 - 构建双记忆机制:非参数记忆负责沉淀经验,参数记忆负责吸收能力,二者相互转化形成持续进化闭环[12] - 提出Manager–Planner–Executor多智能体结构,将记忆管理、策略规划与任务执行解耦,并通过交替强化学习驱动Planner与Executor协同进化,将“会规划”和“会执行”对齐[12] - 引入面向开放世界的自进化机制,结合反思与无监督学习,让智能体在开放世界推理过程中持续修正策略、动态更新记忆,实现边做边学的在线进化[12] 训练与进化机制 - 采用两阶段交替强化学习:第一阶段固定Planner,训练Executor学会理解并严格执行规划;第二阶段固定Executor,训练Planner学习如何利用记忆生成更优计划及失败时的反思与重规划能力[14][21] - 在推理阶段引入测试时学习,使智能体能够持续进化,过程包括:执行推理任务生成多条候选路径,从成功与失败路径中提取非参数化记忆,基于成功路径在线更新参数化记忆[14] - 提出无监督的自进化评估机制,用“过程质量”替代“结果标签”,只要推理严谨、证据可靠、结论合理,即使没有标准答案也可作为有效学习信号[15][16] 评估机制 - 受学术评审启发,将对结果的判断拆分为多个“专家视角”,包括:逻辑评审员检查推理链条是否自洽、事实评审员验证信息来源及是否存在幻觉、结果评审员评估任务是否真正完成[17][22] - 最终由一个“领域主席”进行综合决策并给出整体判断,为MIA提供稳定的优化信号,助力实时进化[17] 实验性能与成果 - 在多项文本与多模态深度研究任务中,MIA显著提升了智能体的稳定性与效率[19] - 在LiveVQA(多模态在线搜索)与HotpotQA(纯文本沙盒搜索)对比实验中,MIA显著提升了现有最先进LLMs(GPT-5.4, Gemini-3-Flash, claude-sonnet-4.6)在调用搜索工具下的表现[26] - 基于Qwen-2.5-VL-7B执行器的MIA模型在7个核心数据集上表现卓越,超越了在不调用工具下的GPT-5.4、GPT-4o和Gemini-2.5-Pro,逼近了Gemini-3-Flash[26] - 在与当前先进智能体记忆方法的横向评测中,MIA在7个数据集上均取得最佳性能表现[26] - 具体数据表现:在In-Domain的FVOA-test数据集上,MIA达到69.6分,高于No Memory的61.4分、RAG的60.5分及Memento的66.3分;在Out-of-Domain的LiveVOA数据集上,MIA达到43.1分,显著高于其他对比方法[23] 总结与行业意义 - MIA的出现传递了清晰信号:决定智能体上限的不再仅仅是接入外部工具的数量,而是其能否在每次交互中将繁杂的“过程信息”压缩为精炼的“执行本能”[25] - 智能体记忆的目标不应只是记住“结果是什么”,而应是学会“该怎么做”[25] - 该研究论文已在X平台被DAIR.AI创始人、拥有30万粉丝的AI论文分享博主Elvis Saravia转发并获高度评价,同时入选Hugging Face Daily Papers榜单[7]