Workflow
MemGPT
icon
搜索文档
梁文锋推迟V4,是为了根治龙虾的健忘症?
虎嗅APP· 2026-03-17 08:08
DeepSeek V4的发布策略与核心能力 - 面对行业在春节期间扎堆发布新版本,公司选择不急于发布半成品,而是追求产品成熟后再推出[4][5][6] - 公司CEO的决策依据在于团队稳定、技术底子厚,不会草率发布[7] - 外媒报道V4将是架构级重构,包含1万亿参数、百万上下文、原生多模态,并预计于4月份发布[7] - 此次迭代的核心是名为LTM的长期记忆系统,旨在从模型架构内部实现持久化记忆,让AI能跨对话和任务记住用户信息与偏好[8] - 公司意图通过架构层面的原生记忆解决行业现有方案的根本缺陷,而非依赖外部中间件[10][11] - 公司的产品哲学是追求发布即“王炸”,正如其R1产品曾凭借过硬实力获得成功[14][15] LTM技术路径与行业痛点 - 当前AI在替人干活时,对上下文的理解和记忆能力已成为决定其可用性的底线,而非加分项[17] - 现有主流记忆方案均为在模型外部运行的外挂系统或中间件,存在共同天花板[20] - 外部记忆方案导致记忆质量取决于工程水平,且需通过上下文窗口注入,会带来高昂的token成本,模型也无法在外部记忆上进行真正的“学习”[21] - 公司基于Engram论文的研究方向是将记忆能力直接嵌入Transformer架构本身,开辟专用的条件记忆空间[22] - Engram方案使用O(1)的哈希查找存取知识,调用时不占用上下文窗口容量,也不增加推理计算成本,且记忆空间容量可近乎无限扩展[22] - 该技术路径旨在跳过“外挂记忆”范式,直接进入“原生记忆”时代,解决现有AI“有手脚却没记事大脑”的问题[23] 对标产品OpenClaw的记忆系统缺陷 - OpenClaw的记忆系统存在三个结构性缺陷:压缩损耗、检索失效和记忆容量上限[24] - 压缩损耗指为腾出上下文空间而将旧对话压缩成摘要时,会丢失对话脉络、推理链条等关键信息,且不可逆[25][26][27] - 检索失效指依赖向量相似度检索无法理解条目间的逻辑关系,可能导致召回错误或遗漏关键信息[28] - 记忆容量存在硬性上限,核心记忆文件有字符数限制,日志记忆的检索质量则依赖模型自身判断,容易丢失重要信息[29][30] - 这些问题的根源在于有限的上下文窗口,导致记忆体验如同“抄了一堆笔记然后翻不到”[30] 上下文学习能力的行业现状与价值 - 腾讯CL-bench基准测试显示,所有前沿模型从上下文中“现学现用”的平均正确率仅为17.2%[33][34] - 表现最好的GPT-5.1正确率也只有23.7%,意味着AI有超过八成的概率未能真正学会所给材料[34] - 研究认为,当前AI与真正智能的鸿沟在于学习能力,而非知识储备量[34] - 如何记忆以及能否“用好上下文”被视为大模型迈向高价值应用的核心瓶颈,并可能成为2026年的核心主题[34] - 上下文学习与记忆的可靠性是实现模型自主学习的关键一步[34] DeepSeek面临的主要竞争短板 - **多模态能力**:公司目前仍是纯文本模型,缺乏通用的视觉、音频和视频理解能力[39][40] - 公司发布的OCR 2模型虽在文档解析基准上表现出色,但仅是“图像→文本”的单向转换,与通用多模态理解存在代际差距[41][42] - 竞争对手如字节的Seedance 2.0和GPT-5.4已进入“全模态”时代,证明了多模态的巨大潜力[43] - **智能体能力**:行业正迈向智能体时代,竞争对手如Kimi、ChatGPT、Claude均已推出能处理复杂任务、调度多智能体的功能[46] - **AI编程能力**:在SWE-bench Verified基准上,公司V3.2得分73.1%,低于Claude Opus 4.6的80.8%和GPT-5.3 Codex的约80%[48] - 在更难的SWE-bench Pro基准上,V3.2得分40.9%,远低于GPT-5.4的57.7%[49] - 行业已从“氛围编程”进化到“智能体工程”,要求AI能独立完成工程级任务[49] - **AI搜索能力**:公司的搜索能力是短板,且结果经常出现幻觉[51] - Vectara测试显示,R1的幻觉率高达14.3%,是V3的3.9%的近四倍[52] - 在学术引用检索测试中,其错误率高达91.43%,包括捏造论文标题、虚构DOI等[52] - 搜索短板源于缺乏自有搜索基础设施依赖第三方接口以及模型事实校验能力不足[54] - 在智能体时代,可靠的搜索是必选项而非加分项[55]
强化学习+大模型记忆:Mem-α,让智能体第一次学会“如何记忆”
机器之心· 2025-11-07 15:17
文章核心观点 - 大语言模型的“记忆”能力是实现长期智能的关键,但现有方案存在成本高、依赖人工规则等瓶颈 [2] - Mem-α 是首个将强化学习引入大模型记忆管理体系的方案,使模型能自主学习记忆的存储、更新和组织策略 [2] - 该方法将记忆构建转化为序列决策问题,通过端到端优化实现高效记忆管理,在性能、效率和泛化能力上均显著超越现有基线 [9][22][24] 技术方案与架构 - Mem-α 采用三层记忆架构:核心记忆(用户身份/目标)、情景记忆(时间线事件)、语义记忆(结构化知识) [15][19] - 通过强化学习优化记忆策略,奖励函数包含问答准确率、工具调用格式、记忆压缩和内容有效性四个维度 [12][13] - 训练数据集基于MemoryAgentBench构建,涵盖精确检索、测试时学习和长期理解三个维度 [17] 性能表现与实验结果 - 在验证集上,Mem-α平均性能达0.642,显著高于Long-Context(0.588)和RAG-Top2(0.567) [20] - 在测试集上,Mem-α-4B平均性能达0.592,优于Long-Context(0.461)和RAG-Top2(0.502) [21] - 记忆占用减少近50%,在BookSum任务中记忆使用仅2.2K,远低于Long-Context的15.4K [20][22] - 具备极强长度外推能力,训练仅用<30K tokens样本,可稳定泛化至超过400K tokens的超长文档 [24] 技术突破与行业意义 - 首次实现记忆建模领域的真正长度外推,证明模型学会的是通用记忆策略而非特定模式 [24] - 消融实验显示,经Mem-α训练后模型准确率从38.9%提升至64.2%,实现从“不会用记忆”到“自主管理记忆”的质变 [25] - 标志记忆管理从工程问题转向可学习问题,为多模态记忆、个性化策略等方向开辟新路径 [27]
那天,AI大模型想起了,被「失忆」所束缚的枷锁
机器之心· 2025-08-31 13:33
大模型记忆技术发展现状 - 谷歌Gemini具备跨越多次对话的长期记忆能力,可从用户交流中提炼关键细节和偏好并主动调用[1] - OpenAI的ChatGPT早在2024年2月就已上线记忆功能,使用频率越多记忆力越好,GPT-6的核心改进也将聚焦记忆能力[3] - Anthropic的Claude能记住之前对话,允许用户无缝继续项目并参考之前讨论[3] - xAI的Grok在4月份实现多轮对话记忆,且记忆内容对用户透明可见并可选择遗忘[6] - 字节跳动联合浙大和上交发布多模态智能体M3-Agent,将记忆能力扩展到视频、音频等多模态数据[10] 记忆技术实现方式分类 - 上下文内记忆:将信息放入模型上下文窗口的短期记忆方式,受Transformer有限上下文窗口长度限制[17][18][19] - 外部记忆:通过检索增强生成(RAG)技术将信息存储在外部数据库的长期记忆方式,支持海量信息存储且无需重新训练模型[22][23] - 参数化记忆:将信息直接编码进大模型自身参数的深层"内化记忆"方式,检索速度极快但更新成本高昂[24][29][30] - 类人的分层式记忆:受认知科学启发设计的类似人脑记忆架构,分为记录具体事件的情景记忆和存储一般事实的语义记忆[31][35] 主要公司的记忆技术实现 - ChatGPT记忆功能:将用户记忆以结构化片段保存于服务器端,通过提示工程方式在生成回复时自动注入模型参考语境[42][44] - Claude记忆机制:只在用户要求时检索和引用过去聊天记录,不建立用户档案[44] - Gemini记忆功能:支持用户直接录入想要记住的内容[45] - MemGPT系统:使用专门记忆LLM智能体管理工作LLM上下文窗口,受传统操作系统分层内存系统启发[49][52] 记忆操作系统创新 - MemOS系统:将记忆看作与算力同等重要的系统资源,通过标准化MemCube记忆单元统一调度明文、激活状态和参数记忆[53][55] - MemoryOS系统:融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块[55] - MIRIX系统:将记忆细分为核心记忆、情景记忆、语义记忆、程序记忆、资源记忆、知识金库六类进行处理[57][59] 记忆结构化与多模态进展 - G-Memory系统:设计三层图式基于模型(洞察图、查询图和交互图),支持定制化记忆视角与跨智能体语义映射[66][67][71] - 多模态记忆突破:Memories.ai提出"大视觉记忆模型"(LVMM),能持续捕获、存储和结构化海量视觉数据[70] - M3-Agent架构:通过强化学习驱动的多轮推理与迭代记忆检索,实现无限信息处理和世界知识构建[70][75][78] 原生记忆能力探索 - Meta记忆层概念:通过键-值对检索机制实现关联存储与调用,记忆容量可达1280亿参数级别[77][80][81] - Branch-Train-MiX方法:通过创建多个专家模型在不同数据子集上训练,然后合并为MoE模块实现参数化记忆[83][92] - Yan 2.0 Preview模型:基于非Transformer架构,通过可微分"神经网络记忆单元"实现记忆的存储、检索和遗忘[85][87] 技术发展趋势 - 从功能模拟到结构仿生:向多模态与综合记忆系统演进,整合不同类型记忆模块形成多层次自适应综合记忆中枢[97][98][106] - 从孤立个体到记忆互联:智能体间实现共享记忆与协作,催生集体智能但面临信息不对称和集体隐私保护挑战[100][101] - 终极目标自动演化:实现记忆的自动演化,智能体能够根据环境互动自主学习管理和优化记忆,实现无需人工干预的终身学习[101][103]
4万星开源项目被指造假,MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试
36氪· 2025-08-15 17:31
行业争议事件 - Mem0团队在4月底发布的论文中声称其Mem0系统在LOCOMO基准测试中击败所有竞争对手,其中在"LLM-as-a-Judge"指标上相较于OpenAI提高了26% [1] - Letta AI联合创始人兼CTO Sarah Wooders公开指控Mem0发布的MemGPT基准测试数据存在问题,指出Mem0未回应关于实验具体运行方式的询问,且在不进行大规模代码重构的情况下无法完成该测试 [1] - 网友评论指出,当Letta和Zep按正确方式运行基准测试后,两者的得分都比Mem0的最佳成绩高出10% [3] 公司背景与融资 - Letta公司由加州大学伯克利分校博士生Sarah Wooders和Charles Packer创立,其MemGPT项目开源后已累积17.8k stars [5][6] - Letta获得了由Felicis的Astasia Myers领投的1000万美元种子资金,本轮估值为7000万美元,并得到谷歌Jeff Dean、Hugging Face的Clem Delangue等天使投资人支持 [6] - Mem0由印度工程师Taranjeet Singh和Deshraj Yadav成立,其开源项目Embedchain下载量超过200万次,Mem0开源不到一天就获得9.7k stars,目前累积38.2k stars [6][8] 技术方案对比 - MemGPT借鉴传统操作系统理念,通过构建记忆层级让智能体主动管理信息,在固定上下文窗口内保持无限记忆容量 [4] - Mem0选择通过通用、可扩展的记忆架构解决问题,充当AI应用程序和大模型之间的记忆层,提供轻量级的记忆层API和向量检索 [8] - Mem0在4月底的论文中引入了基于图的记忆表示来增强关系建模能力,使用Neo4j作为底层图数据库,声称在LOCOMO基准测试中响应准确率比OpenAI提升26%、延迟比全上下文方法降低91%、token使用量节省90% [10][12] 基准测试有效性讨论 - Letta指出仅通过将对话历史存储在文件中而不使用专用记忆工具,就在LOCOMO上达到了74.0%的准确率,高于Mem0报告的图记忆版本68.5% [18][19] - 公司认为智能体记忆能力更多取决于智能体如何管理上下文,而不是所使用的具体检索机制,智能体可以生成自己的搜索查询并持续迭代搜索 [19][20] - Letta提出评估智能体记忆能力的替代方法,包括其自有的Letta Memory Benchmark和Terminal-Bench,前者评估记忆管理能力,后者测试解决复杂长时间运行任务的能力 [22] 行业现状与挑战 - 大模型一直受限于固定的上下文长度,缺乏长期记忆会导致智能体遗忘信息、无法随时间学习改进,在长时间复杂任务中失去目标 [3] - 业内出现多种专用工具将"记忆"作为可插拔服务,常见方式包括使用知识图谱或向量数据库等方案 [8] - 单独评估记忆工具的有效性极其困难,记忆质量更多取决于底层智能体系统管理上下文和调用工具的能力,而非记忆工具本身 [8]
4万星开源项目被指造假!MemGPT作者开撕Mem0:为营销随便造数据,净搞没有意义的测试!
AI前线· 2025-08-13 14:02
行业争议 - Mem0团队在4月底发布的论文中声称其增强版本Mem0在LOCOMO基准测试中击败所有竞争对手,包括比OpenAI在"LLM-as-a-Judge"指标上提高26% [2] - Letta AI联合创始人Sarah Wooders公开指控Mem0未正确运行MemGPT的基准测试,且未回应关于实验具体运行方式的询问 [2] - 网友指出Mem0错误实现了竞争对手的方案,当Letta和Zep按正确方式运行基准测试后,得分比Mem0最佳成绩高出10% [3] - Letta团队通过简单文件系统工具就超过了Mem0的基准数据,质疑该基准测试本身的意义 [3] 公司背景 - Letta由UC Berkeley研究团队创立,其MemGPT系统借鉴操作系统理念管理智能体记忆层级,开源后获17.8k stars [5] - Letta获得1000万美元种子轮融资,估值7000万美元,投资方包括Felicis和谷歌Jeff Dean等 [6] - Mem0由印度工程师Taranjeet Singh和Deshraj Yadav创立,其开源框架Embedchain下载量超200万次 [7] - Mem0开源不到一天获9.7k stars,现累计38.2k stars,客户包括Netflix和Lemonade等 [8] 技术方案 - Mem0引入基于图的记忆表示,使用Neo4j图数据库,在LOCOMO测试中宣称响应准确率比OpenAI提升26%,延迟降低91%,token节省90% [11][13] - Letta认为记忆质量更多取决于智能体管理上下文能力而非工具本身,其测试显示仅用文件系统就达到74%准确率,高于Mem0的68.5% [20][21] - Letta指出智能体能自主优化搜索查询,如将复杂问题转化为关键词组合进行迭代搜索 [22] - Letta提出评估智能体记忆应关注整体任务表现而非单纯检索能力,推荐其Letta Memory Benchmark和Terminal-Bench [25] 行业现状 - 大模型受限于固定上下文长度,缺乏长期记忆能力,导致信息遗忘和复杂任务失效 [5] - 行业出现多种记忆解决方案,包括知识图谱和向量数据库等可插拔服务 [8] - 智能体记忆评估主要依赖LoCoMo等检索基准,而非真实记忆能力 [9] - 行业存在为吸引风投夸大功能甚至研究造假的现象,被批评为"空气产品"泛滥 [3]
Multi-Agent 协作兴起,RAG 注定只是过渡方案?
机器之心· 2025-07-19 09:31
从 RAG 检索增强到多层级状态演化,AI memory 系统崛起 - AI memory 系统正从短期响应向长期交互演进,为智能体注入持续经验能力 [2] - MemoryOS 采用层次化存储架构,将对话 memory 分为短期、中期和长期三层,通过 FIFO 和分段分页机制实现动态迁移 [2] - MemGPT 借鉴操作系统思想,将固定长度上下文视为主内存,通过函数调用在主上下文和外部存储间分页调度,支持大文档分析和多轮会话 [2] - ChatGPT Memory 采用检索增强生成(RAG)方式,通过向量索引检索用户相关信息并注入模型输入,实现对用户偏好和历史信息的记忆 [2] - RAG 侧重外部知识库检索和静态知识注入,依赖向量索引 [2] - AI Memory 注重状态持续性,需维护多层级 memory 架构并管理时序与优先级,结合删除或压缩机制调度有限资源 [3] - RAG 与 Memory 可互补,RAG 增强知识性,Memory 固化对话经验和连贯性 [3] 从模态融合到隐私权限,AI memory 正面临哪些挑战 - AI memory 系统面临静态存储无法演化、多模态多 Agent 协同混乱、检索扩容冲突等技术挑战 [4] - 需解决层级和状态过滤缺失、企业级多任务权限控制、隐私可控性弱等问题 [4] - 挑战驱动 memory 系统向更智能、更安全、更高效方向演进 [4]
ICML 2025 | M+框架来了,增加LLM隐空间记忆,不再受上下文窗口限制
机器之心· 2025-07-15 11:20
论文背景与核心观点 - 论文提出M+框架,旨在扩展MemoryLLM的长期隐空间记忆能力,将8B级模型的有效记忆跨度从不到20k tokens提升到160k tokens以上,同时保持显存占用不变[2][4] - 核心观点是探索隐空间(Latent-Space)的Memory,相比传统文本级记忆更紧凑且可端到端训练,更接近人类神经激活存储信息的方式[6] 现有记忆模型的缺陷 - 上下文窗口不等同于记忆,GPT-4.1等模型即使支持100万token也会导致显存与延迟线性升高[5] - 主流Token-Level Memory方法存在三大问题:(1)原始文本冗余度高 (2)文本级冲突消解复杂 (3)多模态处理能力弱[5] M+的技术创新 - 在MemoryLLM基础上为8B Llama3模型引入1.67B Memory,每层加入12800个Memory Tokens作为Prefix通过Cross-Attention注入信息[8] - 采用协同提取器(Co-trained Retriever)从CPU侧长期记忆池检索信息,联合训练后记忆跨度从50k提升至160k[16][18] - 更新机制中保留被丢弃的Memory Token至长期记忆池,新生成Token替换旧Token完成更新[11][14] 性能表现 - GPU显存占用仅21,177.76MB,低于对比模型Llama-3.1-8B-SnapKV(32,574.49MB)和Llama-3.2-3B-128k(30,422.70MB)[19] - 在SQuAD数据集上展现超强信息留存能力,160k tokens后仍不完全遗忘历史信息[20] 未来方向 - 研究重点包括更高效存储机制、更智能检索策略及多模态融合的隐空间记忆架构[22] - 技术路线不仅扩展MemoryLLM,更致力于实现接近人类记忆能力的语言模型[22]