Workflow
多模态记忆
icon
搜索文档
对话离哲:企业AI告别「对话玩具」,多模态记忆是分水岭
雷峰网· 2026-02-09 11:57
文章核心观点 - 多模态记忆平台是AI时代的基础设施范式,其核心是让AI从处理简单对话转向理解并串联企业生产场景中多模态、碎片化的“决策轨迹”,从而实现可解释、可信赖的决策智能 [1][2][35] - 企业AI应用正从“生产效率探索”迈向“生产效率平台”,关键突破在于通过多模态记忆技术将内化的“隐性知识”显性化,以应对高约束、低容忍度的真实业务场景 [5][6][27] - 通用/泛化AI能力(如ChatGPT、Claude)的持续增强将逐步侵蚀缺乏核心数据或模型壁垒的垂类应用市场,而多模态记忆平台因其“引力效应”(越用价值越大)和作为核心资产的地位,有望成为AI时代的基石企业 [31][32][35][36] AI行业发展趋势与阶段 - **第一阶段(2024年前)**:AI通过向量数据库等技术连接企业数据,解决“进入企业”的第一道门槛,但离生产场景尚远 [3] - **第二阶段(2024-2025年)**:模型成本下降、性能提升,出现通用智能体等示范应用,但应用未完全介入企业工作流,存在无法评估、兜底和追责的问题 [4] - **第三阶段(2025年下半年起)**:企业开始以“生产系统”标准要求AI,关注点从“时间节省”转向在芯片制造、风控等高约束场景中解决真实价值、效率、准确性及复杂性问题 [5] 多模态记忆平台的定义、价值与挑战 - **核心定义与价值**:多模态记忆旨在完整复现企业由文本、表格、音视频、工作流交织而成的连续“决策轨迹”,使AI能在全量记忆基础上进行推理,这是从“会话级别”记忆到“业务伙伴”级别的范式革命 [2][7] - **关键技术门槛**:需要一整套记忆化工程技术栈和独立的多模态数据大模型,包括多模态表征与对齐、深度理解与结构化提取、记忆的状态管理(处理冲突、更新、增强等) [7][8] - **产品形态与定位**:产品形态以API和兼容现有规范(如mem0、MCP)为主,便于集成;其定位是作为长期存在的独立记忆层,不会被单一模型或工具锁死 [13][14] - **当前进展与难点**:核心模型MemoryLake-D1主要解决对Excel、PDF等复杂多模态内容的理解问题,其调用成本相比自建OCR及多模态视觉模型更低;未来更新方向是增强对视频和音频的处理能力,难点在于避免在转换过程中丢失语速、情绪等隐性信息 [16][17] 决策智能与隐性知识内化 - **核心理念**:未来的终极智能是决策智能和行动智能,决策智能是可解释、可干预、可信可靠、可执行的前提 [20] - **实现路径**:企业落地AI首先需将员工重要工作过程形成多模态的“决策轨迹”,随后才能实现效率提升;质变科技从2024年开始研发基于通用大模型生成思维树、自演进迭代的决策智能体 [19][20] - **应用场景**:已应用于高考志愿推荐、留学保研选择等复杂决策场景;游戏被视为一个高容忍度、能更快速度映射真实社会逻辑的AI实验场 [20][24][25] 企业AI应用的挑战与市场现状 - **企业侧的低容忍度**:在电商、客服、保险等涉及金融损失或不可逆后果的场景,企业无法接受行为不可解释、结果不可追溯、问题反复出现的AI系统,这倒逼AI必须具备记忆和上下文理解能力 [26][27] - **质变科技的用户与优势**:用户主要分为办公、金融、AI游戏/具身智能三类;其产品MemoryLake服务了全球超过150万专业数据用户,以及国内超大规模生产系统(超10万亿级记录、亿级文档)的企业;在部分严苛办公场景的端到端评测中准确率达到99.8%,在成本、准确召回率和延迟等性能指标上具有数倍于对手的优势 [28][29] 通用泛化与垂直领域的关系 - **发展趋势判断**:通用大模型的快速演进和强大生态(如Claude发布Interactive Tools、MCP Apps规范)将逐步吞噬浅层垂类应用的市场,缺乏数据或数据模型壁垒的垂类创业公司价值将减弱 [31][32][33][34] - **基础设施定位**:多模态记忆平台通过解决“深度理解”、“深度组织”和“动态构建”的范式问题,与通用大模型深度融合,将成为AI时代像云数据平台一样的基础设施 [35] 公司战略与未来方向 - **独立发展决心**:公司认为记忆是AI时代的核心技术设施之一,具有引力效应,是企业需要持续构建的核心资产,因此拒绝并购,志在成为像Databricks、Snowflake那样的基石公司 [36] - **未来发力方向**: - **核心技术**:持续构建对图片、视频、音频等多模态能力的支持,增强MemoryLake-D1模型的准确度与分布式记忆计算能力 [37] - **市场拓展**:着重开拓游戏、办公、具身智能、金融等前景市场 [38] - **技术研究**:深入研发分布式记忆计算能力,建设端到端的记忆评估体系 [38]
打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统
具身智能之心· 2026-01-11 11:02
文章核心观点 - 一篇由哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布的综述《AI Meets Brain: A Unified Survey on Memory System from Cognitive Neuroscience to Autonomous Agents》首次系统性地将人脑记忆机制与人工智能代理(Agent)的记忆统一审视,旨在为设计真正“类人”的Agent记忆系统奠定理论基石[2] - 该综述横跨认知神经科学与人工智能两大领域,涉猎相关文献共400篇,旨在打破学科壁垒,推动Agent记忆系统的发展[3] 记忆的定义与剖析 - **认知神经科学角度**:记忆是连接过去经验与未来决策的认知桥梁,分为两个阶段:第一阶段快速形成并整合新信息的神经表征,第二阶段对存储的表征进行巩固或检索[6] - **LLM视角**:大语言模型的记忆表现为三种形式:参数记忆(内化在神经网络权重中的知识)、工作记忆(基于上下文窗口的实时推理)和显式外部记忆(如RAG)[7] - **Agent视角**:Agent的记忆是一个动态的认知架构,超越了简单的存储,其核心维度包括结构化存储(将非结构化交互转换为机器可理解的格式)和动态调度(模拟人脑的遗忘与唤醒机制,解决有限注意力与大量存储间的冲突)[7] 记忆的作用 - 在LLM驱动的Agent中,记忆系统充当关键主动组件,旨在实现三大核心作用:突破上下文窗口的限制、构建长期个性化画像、驱动基于经验的推理[10][12] 记忆的分类学 - **基于认知神经科学的分类**:人脑记忆分为短期记忆(临时工作台,容量约4~9个单位信息)和长期记忆(永久档案馆,无严格容量限制);长期记忆进一步分为情景记忆(对个人亲身经历事件的记忆)和语义记忆(对事实、概念和规则的记忆)[15][21] - **Agent的双维度记忆分类**: - **基于性质的分类**:直接对齐人脑,分为情景记忆(存储完整的交互轨迹,提供“How to”的过程性知识)和语义记忆(存储Agent的知识库,提供“What-is”的陈述性知识)[17][20][22] - **基于范围的分类**:分为轨迹内记忆(临时工作区,仅当前任务有效)和跨轨迹记忆(永久存储库,跨越多个任务和生命周期)[17][23][27] 记忆的存储机制 - **认知神经科学中的记忆存储**: - **短期记忆**:存储位置分布在感觉皮层和额顶网络,存储形式包括持续活动和活动-沉默突触连接[28] - **长期记忆**:存储位置涉及海马体(作为索引)和新皮层(作为永久仓库),存储形式包括事件单元和认知地图[28] - **Agent中的记忆存储**:是显式的工程构建,存储位置包括上下文窗口(对应轨迹内记忆)和外挂的记忆库(对应跨轨迹记忆);存储形式包括文本、图结构、参数和隐式表示(高维向量)[31][35] 记忆的管理系统 - **认知神经科学**:记忆管理是一个动态循环,包括记忆形成(编码、巩固、整合)、记忆更新(以预测误差为核心驱动力)和记忆检索(重构性,伴随再巩固过程)[33][34][38][39] - **Agent记忆管理**:形成一个由记忆提取、更新、检索和应用组成的精密闭环[33][38] - **记忆提取**:分为扁平提取、分层提取和生成式提取[41] - **记忆更新**:分为轨迹内更新(如实时过滤噪声)和跨轨迹更新(如引入遗忘机制)[41] - **记忆检索**:分为基于相似度的检索和多因素检索(考虑时间、重要性等因素)[41] - **记忆应用**:分为上下文利用、参数内化等方式[41] Agent记忆系统评测 - 现有的评测基准主要分为两类: - **面向语义的基准**:评估Agent如何构建、维护和利用其内部记忆中的信息状态,例如LoCoMo、MemoryBank等[42][44] - **面向情景的基准**:评估复杂下游应用场景中Agent记忆系统的实际性能增益,例如WebArena、ScienceWorld等[42][44] Agent记忆的安全 - **主要攻击方式**: - **窃取攻击**:利用精心设计的Prompt诱导Agent泄露长期记忆中存储的敏感信息[47] - **投毒攻击**:向记忆库中注入恶意数据以植入后门或进行认知污染,改变Agent行为或使其判断力退化[47] - **防御策略**:包括检索防御(在读取前清洗)、响应防御(在生成回答时监控拦截)和隐私防御(对敏感数据进行匿名化处理)[46][54] 未来展望 - **多模态记忆**:未来的记忆系统需要是全模态的,统一存储与表示文本、图像、音频和视频等多模态信息,使Agent能真正理解物理世界[49][55] - **Agent Skills**:提出“Agent Skills”概念,将指令集、可执行脚本等封装为结构化单元,旨在解决不同Agent间记忆难以移植重用的问题,并探索跨Agent的skills转移和适应机制[50][55]
最火、最全的Agent记忆综述,NUS、人大、复旦、北大等联合出品
机器之心· 2025-12-22 17:55
文章核心观点 - 一篇由多所顶尖学术机构联合发布的百页综述,旨在为快速扩张但日益碎片化的“智能体记忆”领域提供一个统一的分析框架,以梳理其技术路径[2] - 文章指出,传统的“长/短期记忆”二分法已不足以描述当代系统的复杂结构,因此提出了一个名为“Forms–Functions–Dynamics”的三角分析框架[5][6] - 智能体记忆应被视为实现时间一致性、持续适应与长程能力的关键基底,未来将变得更可学习、更自组织、更具适应性[68] 智能体记忆的概念辨析 - **智能体记忆**:关注智能体持续维持的、持久的、可自我演化的“认知状态”,它需要在交互中不断更新、整合、纠错、抽象,并跨任务保持一致性[11] - **LLM记忆**:关注模型内部计算过程中如何更有效地保留和利用序列信息,以解决长距离依赖建模等问题,其研究不必然与智能体的长期自主行为绑定[12] - **RAG**:更接近“静态知识访问”,旨在从外部知识库检索静态信息以提升事实性,若缺乏长期一致性和演化机制,则并非完整的记忆系统[13] - **上下文工程**:作为优化“当下模型看到什么”的外部脚手架,而智能体记忆是支持学习与自主性的、维持跨窗口跨任务持续认知状态的内部基底[14] 记忆的形式 - 综述将智能体记忆的形式归纳为三大类:**Token级记忆**、**参数记忆**和**潜在记忆**[16] - **Token级记忆**:将信息存储为持久、离散、可外部访问与检查的单元(如文字、视觉token),具备透明、可编辑、易组合的优势[18][19] - **参数记忆**:信息存储在模型参数中,通过参数空间的统计模式编码并隐式访问,类似于“内化后的直觉”,但存在训练成本高、难以精确编辑等问题[22] - **潜在记忆**:信息以模型内部隐状态或连续表示存在,可在推理或交互周期中持续更新,它比Token级记忆更紧凑,比参数记忆更容易在推理期更新,但更难解释[24][26] 记忆的功能 - 综述按功能角色将智能体记忆分为三类:**事实记忆**、**经验记忆**和**工作记忆**[29] - **事实记忆**:记录来自用户与环境交互的知识,旨在提供一个可更新、可检索、可治理的外部事实层,以维持跨会话、跨阶段的一致性[31] - **经验记忆**:从任务执行中增量提升解决问题的能力,关注跨情景的长期积累与迁移,可按抽象层级分为基于案例的、基于策略的和基于技能的[32][33] - **工作记忆**:管理单个任务实例中的工作区信息,核心问题是在固定计算预算下处理庞大、高维的即时输入,可分为单轮工作记忆和多轮工作记忆[35] 记忆的动态机制 - 记忆系统的生命周期概括为三段:**记忆形成**、**记忆演化**和**记忆检索**,三者构成一个相互反馈的循环[38] - **记忆形成**:将原始上下文(对话、图像等)编码成更紧凑的知识表示,操作包括语义总结、知识蒸馏、结构化构建、潜在表示及参数内化[40] - **记忆检索**:根据当前观察与任务构造查询,返回相关记忆内容并格式化为模型可消费的信号,其触发节奏(而非模块本身)决定了“短期/长期”效果[41] - **记忆演化**:将新增记忆与已有记忆进行整合,通过合并、冲突消解、剪枝等机制,让记忆库保持可泛化、连贯且高效,涉及复杂的治理问题[43] 资源与前沿展望 - 综述汇总了相关的基准测试和开源框架资源,为实证研究与落地开发提供了关键基础设施[44] - 未来记忆系统的发展趋势包括:从**记忆检索**走向**记忆生成**,让记忆内容能被压缩、重组、重写成更适合推理的表示[50][53] - 记忆管理将从**手工编写规则**转向**自动化管理**,可能通过将记忆操作显式接入决策或构建自优化的记忆结构来实现[54][56][57] - **强化学习**将在记忆系统中扮演更核心的角色,未来可能实现完全由强化学习驱动的记忆控制,减少对人类先验知识的依赖,并对记忆全生命周期进行端到端优化[58][59][60] - 随着智能体走向具身与多智能体协作,**多模态记忆**和**多智能体共享记忆**成为关键挑战,需要实现异质信号的统一存取与推理,并发展出主动管理的集体表示机制[64][70] - **可信记忆**成为首要原则,需在隐私保护、可解释性以及抗幻觉与冲突鲁棒性等方面进行系统性建设[65][66]
给Agent装上“海马体”!上海AILab开源MemVerse,定义多模态记忆新范式
量子位· 2025-12-16 19:52
文章核心观点 - 上海人工智能实验室开源了MemVerse,这是首个面向智能体的通用多模态记忆框架,旨在解决当前智能体面临的灾难性遗忘与模态割裂问题,通过模拟人类认知的三层仿生记忆架构,实现从被动数据检索到主动记忆运用的范式转移,使智能体具备可成长、可内化、秒级响应的终身记忆能力 [1][4][6] 技术架构与原理 - MemVerse采用三层仿生记忆架构,模拟人类信息从暂存、结构化到内化的完整认知过程 [6] - 系统核心包含中央协调器、短期记忆和长期记忆:中央协调器作为“前额叶”主动感知情境并调度记忆模块;短期记忆采用滑动窗口机制保持对话连贯性;长期记忆构建多模态知识图谱,结构化为核心记忆、情景记忆和语义记忆 [11] - 首创“双通路”架构与“记忆蒸馏”技术,通过参数化记忆与周期性蒸馏,将长期记忆中的高价值知识轻量微调并内化到专用小模型中,实现知识的参数化内化 [1][11] 性能表现与优势 - 在ScienceQA基准测试中,搭载MemVerse后,GPT-4o-mini的综合得分从76.82跃升至85.48,提升接近9个百分点 [8] - 在MSR-VTT视频检索任务中,MemVerse在视频细节回忆上的R@1召回率大幅超越了CLIP的29.7%,也显著超过了ExCae的67.7%和VAST的63.9% [8] - 通过高效的记忆压缩与知识蒸馏机制,MemVerse能减少高达90%的Token消耗,大幅降低长期记忆的运营成本与延迟 [8] - 凭借双通道记忆设计,MemVerse将关键记忆的提取速度提升至毫秒级 [9] - 参数化蒸馏使检索响应速度提升10倍以上,解决了结构化存储的性能瓶颈 [11] 行业意义与应用前景 - MemVerse实现了多模态记忆的范式跃迁,使智能体从“被动数据检索”转向“主动记忆运用”,是从被动工具进化为智能助手的关键要素 [1][2][4] - 该框架为构建具备终身学习能力的智能体提供了一套通用、可扩展的多模态记忆范式,让较小的模型也能通过搭载MemVerse具备深度的记忆与推理能力 [10] - 该技术能让轻量级商用模型获得堪比千亿参数大模型的深度认知能力,为开发高性价比的“小而强”智能体提供了关键技术路径 [8]
28场锦秋小饭桌的沉淀:产品、用户、技术,AI创业者的三重命题
锦秋集· 2025-09-03 09:32
多模态硬件入口 - 多视角拍摄设备叠加AI后普及度提升 多模态影像数据具备显著入口价值[20] - AI眼镜产品面向近视人群(中日韩近视率超80%) 因长时间佩戴需求为持续获取人眼视角数据奠定基础[20] - 某大厂AI眼镜出货量达10万+ 主力人群为25-48岁(男女比例7:3) 周末活跃度极高[20] - 眼镜AI调用频率为手机7倍 开始替代小音箱成为新IOT交互入口[20] - 眼镜具备10+tops算力 理论上可运行轻量级AI大模型但耗电问题暂未解决[20] - 未来可能叠加眼动追踪与麦克风阵列波束成形技术 提升AI个性化理解与训练价值[21] 多模态记忆技术 - 多模态记忆串联视频/音频/文本形成完整逻辑链 实现场景复现与高效需求响应[22] - 通过全模态集成与双端压缩技术突破传统记忆模式效率瓶颈 实现海量数据高效利用[22] - 高压缩比技术将10分钟视频压缩至2帧仍保持原性能上限 实现小数据承载全信息[24] - 输入端动态抽帧技术根据画面变化调整频率(5-10帧/秒捕捉快速动作)[24] - 精准搜索技术集成视频/音频/OCR/文本等多模态信息 避免单一文本局限[25] 多模态AI Agent发展 - AI Agent核心在于动态工具选择与上下文感知系统 避免工具箱扩展导致系统崩溃[25] - 正攻克多模态数据整合难题 通过对齐不同模态实现统一语义理解与记忆检索[26] - 分层架构解决工具生态开放后的复杂度问题(上层代理选工具/下层工具执行)[26] - Agent技术趋势从自动化向可复用+生态化演进 用户操作可生成MCP模块形成复用套路[32] - 可能出现AI能力交易市场平台 核心逻辑为AI时代能力可复用[32] 情感陪伴与社交产品 - 情感陪伴产品融入日常生活 兼具情感共鸣与工具价值(如分析聊天记录/设置提醒)[33] - 虚拟角色需打通角色与用户/角色间记忆以提升真实陪伴感 统一风格模板助力社交[33] - Tolan成功切中轻情绪场景并融合工具能力(拍照识图/日程提醒) 但用户context获取方式影响体验[33] AI内容消费与平台 - 新交互方式更易产生新平台机会 否则内容可通过推荐权重调整在原有平台曝光[34] - 用户主动发起的角色互动成为内容产品解法 使Feed流交互转变为问答模式[35] - 从爆款起高楼比空地起高楼更合理 可先通过IP多平台破圈再聚合形成平台[35] 技术供给展望 - 模型大厂因coding商业价值高而重心转回文本模态 多模态理解与生成仍有期待空间[35] - 多模态理解能力待解锁(如精准定位视频片段/融入现实知识) 此为AI抖音难做原因[35] - OpenAI GPT realtime推出使Agent"前台聊天+后台执行"模式可能成为产品范式[36] - 新终端(如autoglm)为Agent操作与AI内容消费提供更大机会 不依赖手机载体[36] 产品工具推荐 - Claude Code较Cursor交互轮次明显减少且更清晰 长期看Cursor价值被压缩[37] - Showrunner通过融合100集对话风格+大语言模型生成内容 用户消费核心为语言非画面[38] - Loom在录屏产品打磨最佳(zoom in/out/编辑/便捷分享等功能完善)[39]
那天,AI大模型想起了,被「失忆」所束缚的枷锁
机器之心· 2025-08-31 13:33
大模型记忆技术发展现状 - 谷歌Gemini具备跨越多次对话的长期记忆能力,可从用户交流中提炼关键细节和偏好并主动调用[1] - OpenAI的ChatGPT早在2024年2月就已上线记忆功能,使用频率越多记忆力越好,GPT-6的核心改进也将聚焦记忆能力[3] - Anthropic的Claude能记住之前对话,允许用户无缝继续项目并参考之前讨论[3] - xAI的Grok在4月份实现多轮对话记忆,且记忆内容对用户透明可见并可选择遗忘[6] - 字节跳动联合浙大和上交发布多模态智能体M3-Agent,将记忆能力扩展到视频、音频等多模态数据[10] 记忆技术实现方式分类 - 上下文内记忆:将信息放入模型上下文窗口的短期记忆方式,受Transformer有限上下文窗口长度限制[17][18][19] - 外部记忆:通过检索增强生成(RAG)技术将信息存储在外部数据库的长期记忆方式,支持海量信息存储且无需重新训练模型[22][23] - 参数化记忆:将信息直接编码进大模型自身参数的深层"内化记忆"方式,检索速度极快但更新成本高昂[24][29][30] - 类人的分层式记忆:受认知科学启发设计的类似人脑记忆架构,分为记录具体事件的情景记忆和存储一般事实的语义记忆[31][35] 主要公司的记忆技术实现 - ChatGPT记忆功能:将用户记忆以结构化片段保存于服务器端,通过提示工程方式在生成回复时自动注入模型参考语境[42][44] - Claude记忆机制:只在用户要求时检索和引用过去聊天记录,不建立用户档案[44] - Gemini记忆功能:支持用户直接录入想要记住的内容[45] - MemGPT系统:使用专门记忆LLM智能体管理工作LLM上下文窗口,受传统操作系统分层内存系统启发[49][52] 记忆操作系统创新 - MemOS系统:将记忆看作与算力同等重要的系统资源,通过标准化MemCube记忆单元统一调度明文、激活状态和参数记忆[53][55] - MemoryOS系统:融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块[55] - MIRIX系统:将记忆细分为核心记忆、情景记忆、语义记忆、程序记忆、资源记忆、知识金库六类进行处理[57][59] 记忆结构化与多模态进展 - G-Memory系统:设计三层图式基于模型(洞察图、查询图和交互图),支持定制化记忆视角与跨智能体语义映射[66][67][71] - 多模态记忆突破:Memories.ai提出"大视觉记忆模型"(LVMM),能持续捕获、存储和结构化海量视觉数据[70] - M3-Agent架构:通过强化学习驱动的多轮推理与迭代记忆检索,实现无限信息处理和世界知识构建[70][75][78] 原生记忆能力探索 - Meta记忆层概念:通过键-值对检索机制实现关联存储与调用,记忆容量可达1280亿参数级别[77][80][81] - Branch-Train-MiX方法:通过创建多个专家模型在不同数据子集上训练,然后合并为MoE模块实现参数化记忆[83][92] - Yan 2.0 Preview模型:基于非Transformer架构,通过可微分"神经网络记忆单元"实现记忆的存储、检索和遗忘[85][87] 技术发展趋势 - 从功能模拟到结构仿生:向多模态与综合记忆系统演进,整合不同类型记忆模块形成多层次自适应综合记忆中枢[97][98][106] - 从孤立个体到记忆互联:智能体间实现共享记忆与协作,催生集体智能但面临信息不对称和集体隐私保护挑战[100][101] - 终极目标自动演化:实现记忆的自动演化,智能体能够根据环境互动自主学习管理和优化记忆,实现无需人工干预的终身学习[101][103]