智能体记忆

搜索文档
4万星开源项目被指造假,MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试
36氪· 2025-08-15 17:31
行业争议事件 - Mem0团队在4月底发布的论文中声称其Mem0系统在LOCOMO基准测试中击败所有竞争对手,其中在"LLM-as-a-Judge"指标上相较于OpenAI提高了26% [1] - Letta AI联合创始人兼CTO Sarah Wooders公开指控Mem0发布的MemGPT基准测试数据存在问题,指出Mem0未回应关于实验具体运行方式的询问,且在不进行大规模代码重构的情况下无法完成该测试 [1] - 网友评论指出,当Letta和Zep按正确方式运行基准测试后,两者的得分都比Mem0的最佳成绩高出10% [3] 公司背景与融资 - Letta公司由加州大学伯克利分校博士生Sarah Wooders和Charles Packer创立,其MemGPT项目开源后已累积17.8k stars [5][6] - Letta获得了由Felicis的Astasia Myers领投的1000万美元种子资金,本轮估值为7000万美元,并得到谷歌Jeff Dean、Hugging Face的Clem Delangue等天使投资人支持 [6] - Mem0由印度工程师Taranjeet Singh和Deshraj Yadav成立,其开源项目Embedchain下载量超过200万次,Mem0开源不到一天就获得9.7k stars,目前累积38.2k stars [6][8] 技术方案对比 - MemGPT借鉴传统操作系统理念,通过构建记忆层级让智能体主动管理信息,在固定上下文窗口内保持无限记忆容量 [4] - Mem0选择通过通用、可扩展的记忆架构解决问题,充当AI应用程序和大模型之间的记忆层,提供轻量级的记忆层API和向量检索 [8] - Mem0在4月底的论文中引入了基于图的记忆表示来增强关系建模能力,使用Neo4j作为底层图数据库,声称在LOCOMO基准测试中响应准确率比OpenAI提升26%、延迟比全上下文方法降低91%、token使用量节省90% [10][12] 基准测试有效性讨论 - Letta指出仅通过将对话历史存储在文件中而不使用专用记忆工具,就在LOCOMO上达到了74.0%的准确率,高于Mem0报告的图记忆版本68.5% [18][19] - 公司认为智能体记忆能力更多取决于智能体如何管理上下文,而不是所使用的具体检索机制,智能体可以生成自己的搜索查询并持续迭代搜索 [19][20] - Letta提出评估智能体记忆能力的替代方法,包括其自有的Letta Memory Benchmark和Terminal-Bench,前者评估记忆管理能力,后者测试解决复杂长时间运行任务的能力 [22] 行业现状与挑战 - 大模型一直受限于固定的上下文长度,缺乏长期记忆会导致智能体遗忘信息、无法随时间学习改进,在长时间复杂任务中失去目标 [3] - 业内出现多种专用工具将"记忆"作为可插拔服务,常见方式包括使用知识图谱或向量数据库等方案 [8] - 单独评估记忆工具的有效性极其困难,记忆质量更多取决于底层智能体系统管理上下文和调用工具的能力,而非记忆工具本身 [8]