参数化记忆
搜索文档
北大团队提出 SHINE:将任意文本转化为大模型 LoRA,仅需一次前向传播!
机器之心· 2026-03-23 15:10
核心观点 - 提出了一种名为SHINE的全新超网络架构,能够仅通过一次前向传播将任意文本转化为大语言模型的LoRA参数,从而实现知识的快速内化与多轮对话 [2][3] - 该方法为大模型快速适配、持续学习和参数化记忆提供了新的技术路径,具有巨大的实用潜力和规模化应用前景 [2][5][8] - 该方向正受到学界和工业界的关注,未来利用超网络为大模型实时生成参数的研究将越来越多,并逐步走向实际应用 [5][6][44] 方法原理与架构设计 - 超网络由LLM和M2P Transformer两部分组成,以文本为输入,直接输出目标LLM的LoRA参数 [3][16][19] - 通过复用推理阶段的LLM来利用其知识,无需增加额外参数,解决了语义到参数的对齐难题 [19][23] - M2P Transformer是一个轻量级Transformer,负责将LLM提取的memory states转化为LoRA参数,整个框架仅需训练Meta LoRA、memory embeddings和M2P Transformer [20] - 架构设计解决了高维输出、效率和信息流动等挑战,避免了表达能力受限的瓶颈结构 [17][23] 训练流程与数据 - 训练采用与大模型一致的“预训练-指令微调”范式,可以直接利用现有的大规模训练数据进行训练 [10][25] - 预训练阶段包含重建和补全两个任务,使用了6B token规模的数据,是目前数据规模最大的用于训练超网络生成LoRA的工作 [28] - 指令微调阶段训练模型利用生成的LoRA基于文本回答问题,分为多轮QA和单轮QA两个阶段 [30][33] - 得益于架构创新,模型性能能够随着数据规模的增加持续提升,展现了明显的规模化潜力 [10][28] 性能与效率优势 - 在MS MARCO MQA数据集上,SHINE的F1 Score达到69.4,逼近了In-Context学习的黄金标准(69.4),且效果远优于Naive(23.2)和SFT(33.0) [35][36] - 在推理阶段,SHINE仅需一次前向传播即可生成LoRA,其摊销时间(Amortizable Time)几乎可以忽略不计(0.0秒),而SFT方法需要29.3秒 [35][36] - 由于知识已内化到参数中,SHINE的生成时间(Generation Time)为11.0秒,相比In-Context学习(14.2秒)显著减少,降低了推理计算开销 [11][35][36] - 在6个单步与多步推理QA数据集上,SHINE的性能非常接近甚至部分超过了In-Context方法,并明显优于其他基线方法 [37] 与现有方法的对比 - 与需要消耗大量时间和算力进行测试时训练的TTT方法相比,SHINE在SQuAD任务上以一次前向传播取得了63.6的F1 Score,优于TTT报告中的最佳结果(59.4) [38][39] - 相比于传统的监督微调,SHINE无需针对每个上下文进行多轮训练,效率得到极大提升 [11][36] - 相比于需要将上下文作为提示词输入的上下文学习方法,SHINE减少了token占用和推理计算开销 [11][36] - 与之前类似工作(如Gen Adapter)相比,SHINE在多个数据集上的表现更优,证明了其架构的优越性 [37][40] 可扩展性与应用前景 - 实验表明,无论是增大基础模型规模,还是提高LoRA维度、增加M2P Transformer层数,都能够持续提升SHINE的性能,展现了良好的可扩展性 [41] - 该方法具有良好的通用性与规模化能力,为大模型的知识注入与快速适配提供了新的、可落地的技术方案 [8][43] - 该研究为持续学习提供了新思路,即利用超网络建模记忆产生过程,将过往经验转化为模型参数 [12][43] - 该方向已引发业界跟进,例如Sakana AI的Doc-to-LoRA和腾讯的HY-WU,预示着未来将有更多研究探索这一范式 [5][44]
那天,AI大模型想起了,被「失忆」所束缚的枷锁
机器之心· 2025-08-31 13:33
大模型记忆技术发展现状 - 谷歌Gemini具备跨越多次对话的长期记忆能力,可从用户交流中提炼关键细节和偏好并主动调用[1] - OpenAI的ChatGPT早在2024年2月就已上线记忆功能,使用频率越多记忆力越好,GPT-6的核心改进也将聚焦记忆能力[3] - Anthropic的Claude能记住之前对话,允许用户无缝继续项目并参考之前讨论[3] - xAI的Grok在4月份实现多轮对话记忆,且记忆内容对用户透明可见并可选择遗忘[6] - 字节跳动联合浙大和上交发布多模态智能体M3-Agent,将记忆能力扩展到视频、音频等多模态数据[10] 记忆技术实现方式分类 - 上下文内记忆:将信息放入模型上下文窗口的短期记忆方式,受Transformer有限上下文窗口长度限制[17][18][19] - 外部记忆:通过检索增强生成(RAG)技术将信息存储在外部数据库的长期记忆方式,支持海量信息存储且无需重新训练模型[22][23] - 参数化记忆:将信息直接编码进大模型自身参数的深层"内化记忆"方式,检索速度极快但更新成本高昂[24][29][30] - 类人的分层式记忆:受认知科学启发设计的类似人脑记忆架构,分为记录具体事件的情景记忆和存储一般事实的语义记忆[31][35] 主要公司的记忆技术实现 - ChatGPT记忆功能:将用户记忆以结构化片段保存于服务器端,通过提示工程方式在生成回复时自动注入模型参考语境[42][44] - Claude记忆机制:只在用户要求时检索和引用过去聊天记录,不建立用户档案[44] - Gemini记忆功能:支持用户直接录入想要记住的内容[45] - MemGPT系统:使用专门记忆LLM智能体管理工作LLM上下文窗口,受传统操作系统分层内存系统启发[49][52] 记忆操作系统创新 - MemOS系统:将记忆看作与算力同等重要的系统资源,通过标准化MemCube记忆单元统一调度明文、激活状态和参数记忆[53][55] - MemoryOS系统:融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及四大核心模块[55] - MIRIX系统:将记忆细分为核心记忆、情景记忆、语义记忆、程序记忆、资源记忆、知识金库六类进行处理[57][59] 记忆结构化与多模态进展 - G-Memory系统:设计三层图式基于模型(洞察图、查询图和交互图),支持定制化记忆视角与跨智能体语义映射[66][67][71] - 多模态记忆突破:Memories.ai提出"大视觉记忆模型"(LVMM),能持续捕获、存储和结构化海量视觉数据[70] - M3-Agent架构:通过强化学习驱动的多轮推理与迭代记忆检索,实现无限信息处理和世界知识构建[70][75][78] 原生记忆能力探索 - Meta记忆层概念:通过键-值对检索机制实现关联存储与调用,记忆容量可达1280亿参数级别[77][80][81] - Branch-Train-MiX方法:通过创建多个专家模型在不同数据子集上训练,然后合并为MoE模块实现参数化记忆[83][92] - Yan 2.0 Preview模型:基于非Transformer架构,通过可微分"神经网络记忆单元"实现记忆的存储、检索和遗忘[85][87] 技术发展趋势 - 从功能模拟到结构仿生:向多模态与综合记忆系统演进,整合不同类型记忆模块形成多层次自适应综合记忆中枢[97][98][106] - 从孤立个体到记忆互联:智能体间实现共享记忆与协作,催生集体智能但面临信息不对称和集体隐私保护挑战[100][101] - 终极目标自动演化:实现记忆的自动演化,智能体能够根据环境互动自主学习管理和优化记忆,实现无需人工干预的终身学习[101][103]