智能体记忆
搜索文档
高效智能体的「幕后推手」是谁?一篇综述带你从记忆×工具学习×规划看透
机器之心· 2026-01-27 14:00
文章核心观点 - 随着大模型能力提升,智能体研究的焦点正从“能否实现”转向“能否落地”,其中“高效性”与“有效性”同等重要,是决定其能否在生产环境大规模部署的关键[2] - 论文撰写了一篇面向“高效智能体”的综述,系统梳理了提升智能体效率的主要方法,核心框架围绕三个关键机制:记忆、工具学习和规划,旨在清晰呈现智能体在真实落地场景中的成本-性能权衡[2] 智能体记忆 - 高效记忆系统的核心是将“长历史”加工成“可用、可检索、可复用”的信息资产,以避免将历史信息一股脑塞进提示词导致的token暴涨和处理能力下降[6] - 记忆生命周期分为三步:构建、管理和访问[7] - **记忆构建**:通过概括、压缩与结构化将“长对话”转为“可用记忆”,分为留在推理链路的工作记忆(文本式直观但消耗上下文,隐式式类似缓存可减少重复编码)和外置为可检索系统的外部记忆(将信息压缩成小单元再按需召回,包括条目式、图式与分层式),需警惕过度压缩带来的信息损失[7] - **记忆管理**:防止“存爆炸”和“取太慢”,规则式方法快但可能误删重要内容,大模型式更聪明但成本更高,混合式则按层级或场景组合两者策略以在效果与成本间取得折中[12] - **记忆访问**:分为记忆选择与记忆整合,通过检索或训练等方式挑选记忆,再用压缩过滤或隐式注入减少token消耗与重复编码[12] - 多智能体记忆成为新趋势,通过引入“记忆”概念支撑规模化协作,主要概括为共享记忆、本地记忆和混合记忆三类[8] 工具学习 - 工具让智能体从“会说”变成“能做”,但成本最容易在工具链路中失控,提效思路围绕三条主线:工具选择、工具调用和工具融合推理[11] - **工具选择**:目标是“更快选对、少塞进prompt”,方法包括使用外部检索器、多标签分类,以及将工具映射为特殊token等,核心是在大量工具中更快、更准地选出所需工具[13] - **工具调用**:核心是“少等、少调、少走弯路”,典型路线包括边生成边调用、并行化调用,以及利用成本感知调用与测试时高效扩展来削减冗余调用;进一步可通过面向效率的后训练将“短轨迹、少调用”写入策略本身[13] - **工具融合推理**:让模型学会“该不该用、何时用、用几次”,代表性方向包括选择性调用(引导智能体只在必要时发起工具调用)以及成本约束策略优化(在保证效果的同时对冗余交互与过长轨迹施加惩罚,从而学到更省的工具使用策略)[13] 智能体规划 - 规划决定智能体在多步决策空间中的行动,效率问题主要来自单体推理“想太深、搜太贵”或多体协作“聊太多、通信太重”,因此从单智能体规划与多智能体协作规划两条线展开[15] - **单智能体规划**:目标是“少算但不掉效果”,主要思路包括自适应预算与控制的“选择性思考”、结构化搜索的剪枝与代价感知、任务分解的先规划后执行;以及通过策略优化与记忆/技能获取将高效规划“内化或复用”[21] - **多智能体协作规划**:目标是“少通信但尽可能不丢信息”,主要方向有三类:拓扑稀疏化以减少全连接带来的消息传递开销;协议与上下文优化压缩关注“传什么/怎么传”;蒸馏方法通过将多智能体协作能力蒸馏回单体,以减少运行时协调成本[21] 基准与评测 - 效率必须建立在有效性之上,高效的定义是在给定预算下取得更好效果,或在相近效果下消耗更少资源[17] - 论文梳理了以有效性为主的benchmark,并汇总了与效率相关的评测内容:一方面整理了在benchmark中显式纳入效率信号(如成本、延迟、调用次数等)的评测设置;另一方面总结了智能体方法中常用的效率指标,用于刻画“省在哪儿、省多少”[17] 挑战与展望 - **统一评测框架**:需要指标口径统一、模块开销边界清楚,才能真正让各个智能体方法可比可复现[19] - **智能体的隐式推理**:大模型侧的隐式推理研究正在升温,但面向智能体的研究仍相对稀缺,由于智能体链路更长、更复杂,如何在不降低效果的前提下将中间推理“做在隐式空间里”以降低成本,既是挑战也是机会[19] - **面向部署设计**:在多智能体场景下,需将部署成本纳入考量,核心问题是评估增加智能体带来的收益是否足以覆盖新增的开销[20] - **多模态效率**:多模态智能体发展迅速,但效率研究相对欠缺,文本智能体的提效思路可借鉴但不易直接迁移,因为多模态智能体的感知输入、行为空间与任务结构更复杂、交互成本更高,如何在该场景下系统兼顾效果与成本仍是关键问题[20]
AI智能体时代中的记忆:形式、功能与动态综述
新浪财经· 2025-12-17 12:42
智能体记忆研究的核心观点 - 记忆是AI智能体实现从静态大语言模型到自适应智能体转变的核心能力,支撑长程推理、持续适应及与复杂环境的交互 [1][5] - 当前智能体记忆研究领域呈现碎片化,术语定义松散且传统分类法(如长/短期记忆)已不足以捕捉当代系统的多样性和动态性,亟需新的系统性框架进行统一 [1][6] - 该综述旨在通过“形式-功能-动态”三维视角,提供一个最新且全面的智能体记忆研究图景,并区分其与大型语言模型记忆、检索增强生成(RAG)等相关概念 [1][7] 智能体记忆的定义与范畴 - 智能体记忆被明确定义为促成AI智能体通过环境交互实现持续适应的关键能力,区别于静态大语言模型的参数化记忆 [5][7] - 其应用场景广泛,包括个性化聊天机器人、推荐系统、社会模拟及金融调查等领域,这些应用均依赖于智能体处理、存储和管理历史信息的能力 [5] - 从发展角度看,赋予智能体持续演化能力是AGI研究的核心目标,而这根本上依赖于其记忆能力 [5] 智能体记忆的形式(架构与表示) - 从形式视角,智能体记忆主要有三种实现方式:标记级记忆、参数化记忆和潜在记忆 [10][18] - 这些不同的架构形式是第3节讨论的重点,旨在解答“智能体记忆可以采取哪些架构或表示形式”这一关键问题 [7][19] 智能体记忆的功能(角色与目的) - 从功能视角,提出了超越时间分类的细粒度分类法,区分了三种功能类型:事实性记忆、经验性记忆和工作记忆 [10][18] - 事实性记忆记录智能体与用户及环境交互中获得的知识;经验性记忆通过执行任务逐步增强智能体解决问题的能力;工作记忆在单个任务实例中管理工作区信息 [7][19] - 第4节将详细阐述这些功能类型,以解答“为何需要智能体记忆以及它服务于哪些角色或目的” [7][19] 智能体记忆的动态性(生命周期与运作) - 从动态视角,分析了在智能体与环境交互过程中,记忆如何随时间被形成、检索和演化 [10][18] - 第5节将按记忆形成、检索和演化的顺序进行阐述,聚焦于智能体记忆的生命周期与运作动态 [7][19] 研究资源与新兴前沿 - 为支持实证研究和实际开发,汇编了关于代表性基准测试和开源记忆框架的全面总结 [2][12] - 阐明了数个新兴研究前沿,包括面向自动化的记忆设计、强化学习(RL)与记忆系统的深度融合、多模态记忆、多智能体系统的共享记忆以及可信度问题 [2][12][20] - 这些方向在早期的分类方案中尚未得到充分体现,例如2025年出现的从过往经验中提炼可复用工具的记忆框架或基于记忆增强的测试时缩放方法 [6][16] 综述结构与贡献 - 综述结构包括:第2节形式化定义与概念厘清;第3、4、5节分别审视形式、功能和动态性;第6节总结基准与框架;第7节讨论未来方向;第8节总结 [9][21] - 主要贡献包括:提出了一个基于“形式-功能-动态”视角的最新多维度分类法;探讨了不同记忆形式与功能的适用性及相互作用;勾勒了未来研究方向;汇编了综合资源集以支持研究与开发 [8][20]
4万星开源项目被指造假,MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试
36氪· 2025-08-15 17:31
行业争议事件 - Mem0团队在4月底发布的论文中声称其Mem0系统在LOCOMO基准测试中击败所有竞争对手,其中在"LLM-as-a-Judge"指标上相较于OpenAI提高了26% [1] - Letta AI联合创始人兼CTO Sarah Wooders公开指控Mem0发布的MemGPT基准测试数据存在问题,指出Mem0未回应关于实验具体运行方式的询问,且在不进行大规模代码重构的情况下无法完成该测试 [1] - 网友评论指出,当Letta和Zep按正确方式运行基准测试后,两者的得分都比Mem0的最佳成绩高出10% [3] 公司背景与融资 - Letta公司由加州大学伯克利分校博士生Sarah Wooders和Charles Packer创立,其MemGPT项目开源后已累积17.8k stars [5][6] - Letta获得了由Felicis的Astasia Myers领投的1000万美元种子资金,本轮估值为7000万美元,并得到谷歌Jeff Dean、Hugging Face的Clem Delangue等天使投资人支持 [6] - Mem0由印度工程师Taranjeet Singh和Deshraj Yadav成立,其开源项目Embedchain下载量超过200万次,Mem0开源不到一天就获得9.7k stars,目前累积38.2k stars [6][8] 技术方案对比 - MemGPT借鉴传统操作系统理念,通过构建记忆层级让智能体主动管理信息,在固定上下文窗口内保持无限记忆容量 [4] - Mem0选择通过通用、可扩展的记忆架构解决问题,充当AI应用程序和大模型之间的记忆层,提供轻量级的记忆层API和向量检索 [8] - Mem0在4月底的论文中引入了基于图的记忆表示来增强关系建模能力,使用Neo4j作为底层图数据库,声称在LOCOMO基准测试中响应准确率比OpenAI提升26%、延迟比全上下文方法降低91%、token使用量节省90% [10][12] 基准测试有效性讨论 - Letta指出仅通过将对话历史存储在文件中而不使用专用记忆工具,就在LOCOMO上达到了74.0%的准确率,高于Mem0报告的图记忆版本68.5% [18][19] - 公司认为智能体记忆能力更多取决于智能体如何管理上下文,而不是所使用的具体检索机制,智能体可以生成自己的搜索查询并持续迭代搜索 [19][20] - Letta提出评估智能体记忆能力的替代方法,包括其自有的Letta Memory Benchmark和Terminal-Bench,前者评估记忆管理能力,后者测试解决复杂长时间运行任务的能力 [22] 行业现状与挑战 - 大模型一直受限于固定的上下文长度,缺乏长期记忆会导致智能体遗忘信息、无法随时间学习改进,在长时间复杂任务中失去目标 [3] - 业内出现多种专用工具将"记忆"作为可插拔服务,常见方式包括使用知识图谱或向量数据库等方案 [8] - 单独评估记忆工具的有效性极其困难,记忆质量更多取决于底层智能体系统管理上下文和调用工具的能力,而非记忆工具本身 [8]