MemOS
搜索文档
业界首个!记忆张量联手商汤大装置落地国产 PD 分离集群,推理性价比达 A100 的 150%
新浪财经· 2025-12-05 20:56
核心观点 - 记忆张量与商汤大装置联合,在国产GPGPU上成功部署了业内首个以“记忆—计算—调度”一体化为核心的PD分离商用推理集群,实现了显著的性能提升和成本优势,标志着国产算力体系在大模型商业化路径上首次具备“体系级”竞争力 [1][8] 技术方案与架构创新 - 记忆张量的核心产品MemOS是业内唯一以记忆为中心、进行系统设计的基础设施,它将大模型认知结构划分为三类记忆,并形成跨时间尺度的调度链路,能精细决策计算的前移与保留 [2][9] - MemOS与PD分离技术结合,通过其调度逻辑将PD分离的收益空间最大化,使PD分离从一个性能优化技巧转变为可完整描述、度量并长期运行的新推理范式 [2][5][9] - 商汤大装置为MemOS提供了顶层系统级基础设施支撑,包括IaaS算力池、智能调度、Ignite框架的性能增强以及万象MaaS平台的统一调度策略 [2][10] - 在国产GPGPU集群上,MemOS的记忆结构被清晰映射为物理分工:P域作为“记忆工厂”批量预生成KV Cache;D域作为“实时交互前台”专注解码;跨节点KV Cache通过高带宽互联实现“即产即用” [4][12] 性能与效率成果 - 在真实C端负载下,单卡并发效率提升约20%,从25.00并发/卡提升至29.42并发/卡 [1][6][12] - 集群整体吞吐量提升超过75%,从Naive部署下的107.85 tokens/s提升到189.23 tokens/s [6][12] - 综合推理性价比达到同代NVIDIA A100的150%左右,在严格SLA与相同负载结构下,首次实现了对A100的体系级正面超越 [1][6][13] - TTFT(首字延迟)全程稳定小于2秒,KV Cache在热门场景中的命中率提升70%+,提高了预计算复用率,进一步摊薄了推理成本 [6][12] 行业意义与未来展望 - 该成果为高性能模型的大规模落地打开了全新的降本增效空间 [1][8] - 双方计划未来围绕更大规模国产GPGPU集群构建记忆驱动流水线推理底座,并持续打磨Prefill行为预测、多级记忆管理等方向,以承载伴随式AI、具身智能体等更复杂任务 [7][14] - 此次实践为国产算力体系开辟了一条从“参数计算”走向“记忆计算”、从“静态推理”走向“动态流水线”的结构性路线,国产GPGPU有机会成为下一代推理范式的定义者之一 [7][14]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
36氪· 2025-09-07 17:07
大模型记忆能力的技术演进 - 大模型记忆能力是指模型具备人类对记忆的组织、检索和应用方式 属于长期记忆或终身记忆范畴 区别于当前依赖长文本和外部数据库的短期记忆[3] - 技术演进背景是模型推理能力已成为行业标配 而通用Agent仍空缺 技术曲线放缓促使行业寻求通过记忆能力实现持续学习和长上下文理解[2] - 记忆能力研究自2023年底兴起 因Scaling Law边际效应下降 算力堆叠仅能带来不足10%的性能提升 需寻找新技术范式[12][19] 行业参与者布局动态 - 2024年8月多家厂商密集推出记忆功能:Anthropic的Claude支持对话记忆检索[4] 谷歌Gemini支持跨对话提炼用户偏好[4] 字节跳动Seed团队发布多模态M3-Agent系统[4] - OpenAI于2023年2月已在ChatGPT上线记忆功能 2024年Sam Altman明确将记忆作为GPT6重点[4][5] - 新兴玩家加速入场:马斯克xAI的Grok于4月实现多轮对话记忆[6] Mistral AI宣布与20多个企业平台集成记忆系统[6] 技术实现路径分析 - 参数化记忆路径:通过模型架构创新实现记忆存储 如Temp-Lora方法用临时模块记录历史交互[18] 非Transformer架构包括谷歌Titans三级记忆机制和Meta的记忆层替换方案[25] - 上下文工程路径:通过Prompt和KV cache管理实现记忆 如Manus公司极致化Agent间记忆复用 但依赖人工工程且错误归因困难[26] - 外部数据库路径:采用RAG和向量数据库存储信息 但存在检索准确性低 工程成本高且无法通过训练提升模型性能的局限性[27] 应用场景与商业前景 - 记忆能力是AI Agent突破的关键 需支持不依赖Context Window的终身记忆 满足游戏陪伴等长期交互场景需求[15][21] - 两类商业模式分化:OpenAI等C端厂商通过全局记忆或局部记忆增强用户粘性[31] 中间件服务商如MemOS和Zep提供开源框架推动去中心化记忆生态[32] - 技术成熟度需1-2年实现大规模应用 3-5年解决幻觉和隐私等治理问题 市场格局未定 存在黑马机会[34][35] 学术与产业研究进展 - 中国科学院院士鄂维南团队于2024年7月发布记忆分层模型Memory³ 将参数拆解为隐性/显性/外置记忆库 获Meta和谷歌跟进[8] - 腾讯AI Lab早期研究RAG提升记忆能力 2021年获ACL杰出论文奖 2024年1月开发出参数化记忆方法解决游戏Agent终身记忆需求[13][18]
国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
机器之心· 2025-09-07 13:12
大模型记忆能力的重要性 - 记忆能力成为AI技术演进的关键方向 是提升AI智能的核心 让AI能够持续学习积累经验 适应新任务而不遗忘旧知识 同时实现长上下文的高效理解[2] - 当前大模型依靠长文本和外部数据库的记忆属于"短期记忆" 而业界追求的是具备人类记忆组织、检索、应用方式的"长期记忆"或"终身记忆"[3] - 2024年8月成为记忆功能集中发布期 Anthropic在8月12日让Claude具有记忆功能 谷歌13日宣布Gemini配备记忆能力 字节跳动14日发布具备长期记忆的M3-Agent系统 OpenAI在20日将记忆作为GPT-6重点[4] 行业参与者布局情况 - OpenAI早在2023年2月就在ChatGPT上线记忆功能 马斯克的xAI在2024年4月宣称Grok能记住多轮对话 Mistral AI最新宣布引入记忆系统并与20多个企业平台集成[5][6] - 记忆张量是聚焦Agent Memory的初创企业 推出了业界首个记忆操作系统 其团队成员参与研发的记忆分层大模型Memory³在2024年7月发布[9] - 腾讯AI Lab是业界最早进行利用RAG提升模型记忆能力的研究团队之一 相关研究曾获得2021年ACL杰出论文奖[14] 技术发展驱动力 - 技术侧驱动力来自Scaling Law边际效应下降 通过堆算力、参数量获得性能提升的效果明显下降 即便再去堆成倍算力 都拿不到10%甚至5%的能力突破[20] - 应用侧需求来自AI Agent发展 用户希望AI能作为合作伙伴解决长期问题 需要记住之前的交互与反馈 模型终身记忆成为非常重要的事情[21][22] - 记忆能力是Agent取得突破性进展的必不可少环节 技术侧和应用侧形成双重诉求[7][23] 技术路线分析 - 参数化记忆路线基于基座模型架构驱动融合记忆创新 让模型从参数层面区分需要被记忆的内容 在推理过程中融合到前向推理过程[26] - 上下文记忆路线将信息以prompt方式放在Context Window中 典型代表Manus不断强调在Agent交互过程中做KV cache管理[28] - 外部数据库/RAG路线将信息存储在模型外部数据库中 通过RAG将相关内容取回注入到当前Context Window[28] - 各种路线都有优势与局限性 参数化记忆理论上限高但研发成本高 上下文记忆容易变成纯粹工程事情 RAG上限较低[27][28][29] 市场格局与商业模式 - 第一类玩家是OpenAI、Anthropic、Google等AI厂商 通过引入长短期记忆能力达成个性化服务目标 借助记忆的个性化能力来留住用户[33] - 第二类玩家是记忆中间件服务商 如Mem0、记忆张量的MemOS、Zep等开源记忆框架 面向更广泛开发者提供记忆能力增强[33] - Mistral AI宣布免费扩展企业级业务平台Le Chat 已与20多家平台集成 试图通过提供先进记忆功能打破AI市场竞争格局[35] 发展时间框架 - 距离真正能够大范围应用记忆能力 让用户感受到生活无处不在变化 还需要一到两年时间[36] - 要达到解决记忆幻觉问题、隐私保障和立法等治理层面 至少还需要三到五年时间[37] - 记忆能力竞赛中各类玩家互相角力 战况胶着 谁都有可能突破 未来乾坤未定 一切皆有可能是黑马[38]
那天,AI大模型想起了,被「失忆」所束缚的枷锁
机器之心· 2025-08-31 13:33
大模型记忆技术发展现状 - 谷歌Gemini具备跨越多次对话的长期记忆能力,可从用户交流中提炼关键细节和偏好并主动调用[1] - OpenAI的ChatGPT早在2024年2月就已上线记忆功能,使用频率越多记忆力越好,GPT-6的核心改进也将聚焦记忆能力[3] - Anthropic的Claude能记住之前对话,允许用户无缝继续项目并参考之前讨论[3] - xAI的Grok在4月份实现多轮对话记忆,且记忆内容对用户透明可见并可选择遗忘[6] - 字节跳动联合浙大和上交发布多模态智能体M3-Agent,将记忆能力扩展到视频、音频等多模态数据[10] 记忆技术实现方式分类 - 上下文内记忆:将信息放入模型上下文窗口的短期记忆方式,受Transformer有限上下文窗口长度限制[17][18][19] - 外部记忆:通过检索增强生成(RAG)技术将信息存储在外部数据库的长期记忆方式,支持海量信息存储且无需重新训练模型[22][23] - 参数化记忆:将信息直接编码进大模型自身参数的深层"内化记忆"方式,检索速度极快但更新成本高昂[24][29][30] - 类人的分层式记忆:受认知科学启发设计的类似人脑记忆架构,分为记录具体事件的情景记忆和存储一般事实的语义记忆[31][35] 主要公司的记忆技术实现 - ChatGPT记忆功能:将用户记忆以结构化片段保存于服务器端,通过提示工程方式在生成回复时自动注入模型参考语境[42][44] - Claude记忆机制:只在用户要求时检索和引用过去聊天记录,不建立用户档案[44] - Gemini记忆功能:支持用户直接录入想要记住的内容[45] - MemGPT系统:使用专门记忆LLM智能体管理工作LLM上下文窗口,受传统操作系统分层内存系统启发[49][52] 记忆操作系统创新 - MemOS系统:将记忆看作与算力同等重要的系统资源,通过标准化MemCube记忆单元统一调度明文、激活状态和参数记忆[53][55] - MemoryOS系统:融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块[55] - MIRIX系统:将记忆细分为核心记忆、情景记忆、语义记忆、程序记忆、资源记忆、知识金库六类进行处理[57][59] 记忆结构化与多模态进展 - G-Memory系统:设计三层图式基于模型(洞察图、查询图和交互图),支持定制化记忆视角与跨智能体语义映射[66][67][71] - 多模态记忆突破:Memories.ai提出"大视觉记忆模型"(LVMM),能持续捕获、存储和结构化海量视觉数据[70] - M3-Agent架构:通过强化学习驱动的多轮推理与迭代记忆检索,实现无限信息处理和世界知识构建[70][75][78] 原生记忆能力探索 - Meta记忆层概念:通过键-值对检索机制实现关联存储与调用,记忆容量可达1280亿参数级别[77][80][81] - Branch-Train-MiX方法:通过创建多个专家模型在不同数据子集上训练,然后合并为MoE模块实现参数化记忆[83][92] - Yan 2.0 Preview模型:基于非Transformer架构,通过可微分"神经网络记忆单元"实现记忆的存储、检索和遗忘[85][87] 技术发展趋势 - 从功能模拟到结构仿生:向多模态与综合记忆系统演进,整合不同类型记忆模块形成多层次自适应综合记忆中枢[97][98][106] - 从孤立个体到记忆互联:智能体间实现共享记忆与协作,催生集体智能但面临信息不对称和集体隐私保护挑战[100][101] - 终极目标自动演化:实现记忆的自动演化,智能体能够根据环境互动自主学习管理和优化记忆,实现无需人工干预的终身学习[101][103]
重塑记忆架构:LLM正在安装「操作系统」
机器之心· 2025-07-16 12:21
大型语言模型记忆能力与上下文窗口 核心观点 - 现代大型语言模型(LLM)存在内在的「记忆缺陷」,上下文窗口有限导致难以维持长期一致性 [5][6] - 长上下文处理能力与记忆能力密切相关,但上下文窗口不等同于记忆 [11][34] - 新兴记忆管理系统借鉴操作系统架构,实现更持久的LLM记忆 [48][50][54] 上下文窗口演变 - 早期GPT-3仅支持2,048 token,近期模型如Llama 4 Scout可达1,000万token [2][4] - 上下文窗口扩展面临长度泛化、高效注意力、信息保留等挑战 [12][13][14] 记忆分类体系 - **短期记忆**:当前推理可见的历史文本,用于文档问答/多轮对话 [16] - **长期记忆**包含: 1) 事件记忆-记录代理操作历史 [18] 2) 语义记忆-整合外部知识与自我认知 [19] 3) 程序性记忆-系统运行机制与行为边界 [20] 提升记忆能力的技术路径 - **长上下文方法**: 1) RAG实现动态知识检索,减少幻觉 [27][28] 2) 分层摘要处理超长文本但易累积错误 [31] 3) 滑动窗口推理结合次级模型整合 [32] - **记忆系统架构**: 1) 固定记忆池(MemoryLLM)限制容量避免无限增长 [36][37] 2) 非固定记忆池采用键值对/隐藏向量等灵活形式 [41][42] 代表性记忆系统 - MemGPT借鉴操作系统分页机制管理虚拟内存 [50][52] - MemOS采用工业级分层架构融合Memory3技术 [52][54] - MemoryOS实现三级分层存储体系(实时/主题/个性化) [54][56] - MIRIX首创多模态多智能体记忆系统 [58][63] - Larimar受人类情景记忆启发构建分层框架 [60][64]
重塑AI记忆边界:MemOS开源!时序推理较OpenAI提升159%
机器之心· 2025-07-07 12:48
核心观点 - MemOS作为大模型记忆操作系统,在准确性、Tokens开销和时序推理任务上显著超越现有方案,平均准确性提升38.97%,Tokens开销降低60.95%,时序推理任务提升159% [2] - 该系统将记忆视为与算力同等重要的资源,通过MemCube标准化单元实现明文、激活状态和参数记忆的统一调度,赋予模型持续进化能力 [4] - 技术架构借鉴操作系统分层设计,包含API接口层、调度管理层和存储基础设施层,形成全链路记忆管理闭环 [10] - 在LoCoMo基准测试中全面领先,时序推理任务表现尤其突出,较Mem0和OpenAI实现20%绝对值和159%相对值提升 [34] - 框架采用开源模式,已实现核心功能模块并计划成立OpenMem社区推动生态发展 [24][44] 技术架构 分层设计 - **API与应用接口层**:提供标准化Memory API支持记忆创建/删除/更新操作,赋能多轮对话和跨会话个性化场景 [11] - **记忆调度与管理层**:创新性引入Next-Scene Prediction机制,通过触发点监控和预加载记忆片段降低60%响应延迟 [12][13] - **存储基础设施层**:MemCube封装三种记忆形态,支持Graph/向量数据库等多种持久化存储方式并具备跨模型迁移能力 [15] 核心组件 - 参数记忆模块承担长期能力存储,激活记忆模块管理快速工作状态,明文记忆模块处理外部事件片段 [12] - MemScheduler实现优先级调度,MemVault提供版本化存储,MemGovernance负责访问控制 [12] - 后端驱动MemLoader/Dumper完成记忆搬运,MemStore支持记忆包共享部署 [12] 性能表现 基准测试 - 单跳任务LLMJudge Score达78.44分,超越Mem0-Pro版本5.11分 [32] - 多跳任务F1值35.57,较OpenAI基线提升7.4% [32] - 开放领域任务得分55.21分,显著优于Mem0的45.83分 [32] - 时序推理任务LLMJudge Score 73.21分,达到同类最佳水平 [32] 效率优化 - TOP-20召回仅需1000 Tokens上下文,较对照组2000-4000 Tokens需求降低60%以上 [36] - KV Cache复用使Qwen3-8B模型长文本TTFT加速比达79.1%,Qwen2.5-72B模型提升至76.4% [40][42] - 检索P95延迟控制在1969ms,效果得分超越Full-Context方案 [39] 应用场景 - **个性化智能体**:持续积累用户偏好数据实现长期陪伴,对话体验迭代优化 [20] - **科研知识管理**:结构化保存研究资料和笔记,构建具备深度记忆的智能助手 [20] - **高可靠性领域**:金融法律场景提供精准知识溯源,审计覆盖率达100% [20] - **企业RAG**:解决新旧知识混用问题,长周期任务回答一致性提升45% [20] 发展计划 - **OpenMem社区**:聚焦记忆管理/增强/共享技术,打造开放生态体系 [44] - **联合开发计划**:与Agent团队合作推进对话机器人/企业知识管理等场景落地 [45] - **技术迭代方向**:重点突破记忆压缩、分布式调度、跨模型迁移等关键技术 [46] - **商业化路径**:已获招商证券、中国银行等头部机构认可,实现忆立方大模型落地 [47]