Workflow
灾难性遗忘
icon
搜索文档
LLM 语境下,「持续学习」是否是 「记忆」 问题的最优解?
机器之心· 2025-11-16 09:30
LLM语境下持续学习与记忆问题 - 谷歌提出嵌套学习范式将模型视为一系列嵌套问题堆叠旨在学习新技能同时规避灾难性遗忘问题[6] - 嵌套学习核心论点在于机器学习模型由多个相互关联层次分明优化子问题组成将模型优化器与记忆统一看作多级并行带独立上下文流优化问题[6] - 基于嵌套学习原理研究者设计HOPE架构在语言建模长上下文推理持续学习与知识整合任务上较Transformer++等基线模型表现出更低困惑度与更高准确率[7] - AI社区存在争议认为嵌套学习类似已有技巧叠加如2020年ModNet和2024年ACh和NA框架等多尺度持续学习并非全新概念[8] - 持续学习核心挑战是解决灾难性遗忘即智能系统学习新任务时避免覆盖旧任务知识LLM时代表现为模型降智如领域SFT训练导致通用基准测试性能下降[8] - 当前LLM研究焦点偏向通过改善记忆力使智能体保留情景经验语义知识和程序技能设想跨持久智能记忆层包含Model Weights层KV Cache层和Context层[8] 从行为数据到AI记忆的路线 - 产品方强调更懂你资本强调难以复制引发AI产品护城河是否真实存在讨论不同产品在记什么记多久上押注不同方向[1] - 医疗对话记忆能否作为知识库提升诊疗质量探讨软件被动记录无法覆盖全部生活场景需借助硬件实现always on模式[1] 合成数据与人形机器人发展 - 合成数据被视为数据金字塔中坚力量DARPA寒冬已过人形机器人迎来技术和市场双重爆发[2] - 人形机器人利用以人为中心数据源真实数据虽是黄金标准但被称为最大瓶颈GenAI指数引擎是否创造有用数据受关注[2]
突破LLM遗忘瓶颈,谷歌「嵌套学习」让AI像人脑一样持续进化
机器之心· 2025-11-08 14:10
嵌套学习范式核心观点 - 谷歌提出一种全新的机器学习范式“嵌套学习”,旨在解决大语言模型的持续学习难题,使模型能够不断学习新技能而不遗忘旧知识 [1] - 该范式将模型架构与优化算法视为统一的、具有不同更新频率的“优化层”,突破了传统上将二者割裂的视角 [6][7] - 嵌套学习框架下设计的Hope架构在实验中表现出更强的表达能力、更高效率及持续学习能力,被认为是迈向自适应、自我改进智能的重要一步 [3][4][30] 嵌套学习的技术原理 - 嵌套学习将复杂机器学习模型视为一组相互嵌套或并行运行的优化问题,每个子问题拥有独立的上下文流和更新频率 [11][16] - 该范式揭示了传统深度学习是在“压缩”内部信息流,而嵌套学习提供了新设计维度以构建具有更深计算深度的学习组件 [12] - 训练过程中的反向传播可被建模为一种联想记忆机制,学习将数据点映射到其局部误差以衡量“意外程度” [12] - 类似地,Transformer的注意力机制也可形式化为联想记忆模块,嵌套学习使得模型每个组件都能以不同频率更新,模仿人脑的多时间尺度更新机制 [13][15] 嵌套学习的实际应用与改进 - 在优化器方面,嵌套学习将优化器视为联想记忆模块,通过将优化目标改为更标准的损失指标(如L2回归损失)可推导出对噪声数据更具鲁棒性的新动量公式 [18][19] - 在记忆系统方面,嵌套学习将传统Transformer的短期与长期记忆概念扩展为“连续体记忆系统”,其中记忆被视为一系列以不同特定频率更新的模块,为持续学习创建了更丰富高效的记忆系统 [20][21] Hope架构的设计与性能 - Hope是谷歌基于嵌套学习原理设计的一个自我修改的循环架构,是Titans架构的一个变体,能够执行无限层次的上下文学习 [23][24] - 该架构通过连续体记忆系统模块扩展上下文窗口,并能通过自我引用过程优化自身记忆,形成具有无限循环学习层次的结构 [24] - 实验结果显示,Hope在多项语言建模与常识推理任务上表现出更低的困惑度与更高的准确率,在长上下文记忆管理方面超越了当前最先进的模型 [8][27][30]
大模型微调范式认知再被颠覆?UIUC、Amazon团队最新研究指出SFT灾难性遗忘问题或被误解
机器之心· 2025-10-21 11:43
研究核心观点 - 领域特定的监督微调(SFT)并不总是会严重削弱大模型的通用能力,灾难性遗忘问题更多源于训练策略的选择而非SFT范式本身 [2] - 采用更小的学习率进行SFT,可以在保持目标领域性能的同时,大幅缓解模型在数学推理、代码生成、指令跟随等通用能力上的退化 [2] - 研究团队提出了Token自适应Loss重加权(TALR)方法,进一步优化了在较大学习率下领域性能与通用能力之间的平衡 [19][20] 实验设计与设置 - 实验选取了两个现实强相关的领域和数据集:MedCalc(医疗推理,10.1k训练/1.05k测试)和ESCI(电商商品多分类,49k训练/10k测试)[5][8] - 使用了多种规模的开源LLM进行实验,包括Qwen3-8B、Qwen2.5-7B、Gemma3-4B等Instruct模型 [6] - 核心控制变量为学习率,设置了1e-6、5e-6、2e-5三档,其他训练超参遵循常规SFT实践 [6] - 在MetaMathQA(395k训练样本)大规模数学推理数据集上进行了补充实验,采用DeepSeek-Coder-7B作为基础模型 [12][14] 关键研究发现 - 更小的学习率(如1e-6)能带来更优的性能折中,在MedCalc和ESCI任务上,模型在保持目标领域强性能的同时,显著减轻了通用能力的下降 [11] - 对于仅需最终标签的分类问题(如ESCI w/o CoT),实现理想折中的学习率范围更宽,5e-6的学习率表现与1e-6相当 [12] - 即便在大规模数据集MetaMathQA上,更小的学习率(5e-6)也能在保持数学领域性能的同时,显著缓解模型原有编码能力的退化 [14] - 理论分析表明,较小的学习率能够严格收紧通用性能下降的上界,而训练目标仅包含最终标签时,模型遇到的“难token”数量减少,从而拓宽了可接受的学习率范围 [15][17] TALR方法及其效果 - TALR通过建立约束优化问题,根据每个token的预测概率自适应分配权重,置信度低(概率小)的token权重更小,以削弱这些hard token在训练中的过度梯度贡献 [20][21] - 在MedCalc基准上的实验显示,当学习率较大(5e-6)时,TALR相比L2正则化、LoRA、Wise-FT等方法,能实现更优的Pareto前沿,在保持领域增益的同时显著减少通用性能损失 [26] - TALR在训练中自发呈现出“课程学习”机制,由易到难动态调整学习路径,优先通过高置信度token驱动优化,再逐步纳入难点token [32] 行业影响与展望 - 研究重申了SFT作为大模型能力提升基石的重要性,挑战了“RL可以解决一切”的行业观点,指出高质量的SFT是RL有效发挥作用的先决条件 [34] - 该工作为更好的领域适配提供了重要启发,特别是在医学等专业场景中,如何在注入领域知识的同时保留基础模型的通用能力是关键方向 [35] - 未来研究需探索更强大的缓解策略,以在必须使用大学习率追求最高领域性能的场景下,更好地兼顾通用能力,同时需在更大规模模型和更广泛数据集上进行验证 [27][35]
普林斯顿大学最新!VLM2VLA:将 VLM 微调为 VLA,并避免灾难性遗忘
具身智能之心· 2025-10-07 18:00
文章核心观点 - 提出一种名为VLM2VLA的创新方法,通过将机器人动作数据转化为自然语言描述,解决了视觉语言模型在微调为视觉语言动作模型时出现的灾难性遗忘问题 [2][3] - 该方法的核心是将低维动作向量转化为与VLM预训练数据分布一致的自然语言,从而仅需使用低秩适应技术进行高效微调,最大程度保留VLM原有的多模态理解和推理能力 [3][4] - 通过超过800次真实机器人实验验证,该方法在保留VLM核心能力的同时,实现了在新任务中的零样本泛化,尤其在多语言指令遵循和开放世界语义推理方面表现显著优于基线模型 [4][17][22] 技术方法 - 采用三级推理过程将动作预测层级化,全部使用自然语言描述:高层子任务预测、中层运动规划和低层动作生成,完全复用VLM的现有词汇表 [6] - 通过Gemini 2.5自动将原始机器人轨迹数据集重构为语言标注数据集,使数据格式与VLM预训练数据保持一致,解决了分布不匹配问题 [9] - 仅使用LoRA对Gemma-3-12B-IT模型的线性层进行微调,关键超参数包括LoRA秩为16、LoRA alpha为32、学习率为5e-5,不修改VLM基础架构且无需联合训练 [12][13] 实验验证与性能 - 在12个VQA基准测试中验证了模型对预训练多模态理解能力的保留程度,证明其有效避免了灾难性遗忘 [15] - 在分布内任务上性能接近基于更大数据集训练的OpenVLA,在复杂多步骤任务中因层级推理优势表现更佳 [17] - 在分布外任务中优势显著,多语言任务成功率依赖保留的语言能力,语义任务依赖预训练的常识推理,如在识别"Ash Ketchum"任务中成功率达60%,而基线模型完全失败 [17][22] 局限性与未来方向 - 自回归生成动作导致推理延迟较高,中位延迟为6.1秒,需优化解码策略 [19] - 当前仅支持平移自由度控制,无法处理旋转等灵巧动作,且模型针对特定机械臂训练,需探索更通用的"动作语言"表示 [22] - 依赖Gemini作为外部验证器判断子任务完成度,未来需将验证能力融入VLM本身,并扩展更大规模的机器人语言标注数据集以提升泛化能力 [19][22]
IEEE TPAMI 2025 | 北京大学提出分布驱动的终身学习范式,用结构建模解决灾难性遗忘
机器之心· 2025-09-26 18:35
研究背景与问题定义 - 行人重识别技术旨在跨摄像头、地点和时间匹配同一行人的图像,在智能安防、交通管理等领域有重要应用价值 [3] - 现实环境中数据分布会随采集条件变化而发生迁移,导致测试数据与训练数据间存在显著域偏移,传统静态训练范式在动态环境中适应性不足 [3] - 终身行人重识别任务要求模型在持续接收新数据时能增量学习新知识,同时保持对旧知识的辨识能力,核心挑战是灾难性遗忘问题 [3][5] 现有方法局限性 - 保留历史样本的方法存在数据隐私风险和存储开销持续增长的问题 [5] - 知识蒸馏方法因强制新旧模型输出一致性,制约了模型可塑性并限制新知识学习能力 [5] - 现有原型学习方法仅为每个类别保留单一特征中心,忽略了类内分布差异,导致行人的细粒度知识丢失 [5] 核心技术方案 - 提出实例级细粒度建模,动态捕捉行人实例的局部细节信息,为细粒度匹配奠定基础 [14] - 设计分布感知的原型生成算法,将实例级分布信息聚合为更鲁棒的类别级分布原型,克服单一特征中心的局限性 [14] - 引入输入端分布建模机制弥合新旧数据特征分布鸿沟,提升模型对历史知识的利用能力 [14] - 提出基于原型的知识迁移模块,利用分布原型和有标注的新数据协同指导模型学习 [14] 实验性能表现 - 在两种不同域顺序设定下,DKP++的已知域平均性能相比现有方法提升5.2%-7% [17] - DKP++在未知域的整体泛化性能相比现有方法提升4.5%-7.7% [17] - 随着已学习域数量增加,DKP++呈现更高的历史知识巩固能力和未知域泛化性能增长速度 [20] - 在以不同的重识别基础模型作为预训练模型时,DKP++均保持了对现有方法的优势 [21] 技术创新与未来方向 - 提出基于实例级分布建模构建分布原型,增强了模型对历史信息的表达能力 [23] - 通过域分布建模与样本分布对齐克服新旧域数据的分布鸿沟 [23] - 未来可基于Diffusion等架构促进分布对齐以进一步提升抗遗忘能力 [23] - 构建模型的主动遗忘机制对进一步增强模型的知识巩固和学习能力具有重要研究价值 [23] - 增强模型的多模态数据持续学习能力可促进复杂环境的感知能力 [23]
机器情感与AI陪伴的人文审度⑥|邱德钧、李玮农:超越记忆——情感计算中遗忘的必要性和实现
新浪财经· 2025-07-17 10:25
人形机器人行业发展 - 2024年被称为"人形机器人元年",预测机器人大规模进入家居生活场景,人机情感交流将成为智能社会常态 [1] - 机器情感与AI陪伴概念引发跨学科研究热潮,涉及哲学、马克思主义理论、文学和人工智能等领域 [1] - 行业关注焦点包括人机交互影响、文化/性别视角分析、社会冲击评估及技术伦理应对方案 [1] 机器情感技术研究 - 建构主义理论提出机器情感发展的有限主义进路,从情感智能、人机互动三方面剖析建构性 [2] - 基于"以生命为核心"的意识理论,通过模拟生物体内稳态调节机制赋予机器情感能力,为通用AI提供新思路 [2] - AI复活技术催生新型人机情感交互形式,但存在情感依赖、异化等伦理风险,需制度规约与技术设计协同治理 [2] 情感计算技术进展 - 情感计算领域自1997年提出以来,致力于使计算机识别、理解、表达和调节人类情感 [4] - 当前技术面临数据集质量不足、情感表达机械化、动态重构困难等挑战,线性进步假设脱离实际 [6] - 主流研究聚焦情感状态实时分类,普遍忽视情感信息的长期记忆管理和遗忘机制建模 [7] 遗忘机制技术创新 - 提出类人遗忘神经计算模型(PHFNM),整合自然衰退与主动遗忘机制,包含三层架构设计 [19][22] - 模型通过低维情感索引层模拟意识体验淡化特性,避免高维数据存储的计算过载 [23] - 引入情感稳固因子矩阵,量化记忆重要性差异,比单一衰减模型更符合心理学观察 [26][31] - 主动遗忘层基于伦理信号和全局情绪强度实现记忆动态调节,支持高级情感适应性行为 [25][31] 技术局限性 - 模型情感表示简化,低维向量难以捕捉复杂情感细微差别,未区分记忆类型内部结构 [32] - 离散时间步更新与线性假设简化了现实情感过程的连续性和非线性交互特性 [32][34] - 参数固定缺乏元学习机制,无法根据经验调整遗忘策略或对情绪信号的敏感度 [33]
函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025
量子位· 2025-05-30 13:01
大语言模型的灾难性遗忘研究 核心观点 - 大语言模型(LLMs)的灾难性遗忘本质是功能激活偏差而非能力覆盖,表现为新任务学习时旧任务功能未被正确激活[1][2] - 函数向量(FVs)可作为量化遗忘现象的工具,其相似度与模型性能下降呈强相关性(R²=0.873)[26][27] - 提出的FVG训练方法通过正则化技术保留函数向量,在持续学习任务中显著提升模型通用能力[44][51] 遗忘现象特征 - 任务类型差异:生成任务序列导致的遗忘程度(如NI-Seq-G1使Llama3-8b通用任务性能下降10.7%)显著高于分类任务(4.48%)[11][20] - 模型依赖性:Llama2-7b在混合任务序列(NI-Seq-M1)中遗忘指数达4.69,而Mistral-7b同条件下仅4.95[11] - 动态可逆性:训练初期性能下降后可能出现恢复,表明部分遗忘能力可被重新激活[20] 函数向量机制 - 构建方法:通过干预前10个关键注意力头(layer-head)的平均激活值(CE值最高)求和获得[15][18][21] - 作用原理:函数向量偏移导致输入激活机制变化,而非旧功能被覆盖(相似度降低时性能下降30%+)[26][35] - 验证实验:插入旧任务函数向量可使被遗忘任务性能恢复83%以上[43] FVG训练方法 - 双重正则化: 1) 函数向量一致性损失(L2距离约束层头激活值变化)[44] 2) KL散度损失保持零样本与干预输出的概率分布对齐[46] - 优化目标:联合损失函数平衡系数λ₁=0.1,λ₂=0.01时效果最佳[48] - 实测效果:在SuperNI数据集上使上下文学习性能下降减少19.6%(对比基线)[11][51] 技术实现细节 - 实验设置:采用6种任务序列(生成/分类/混合)评估GP/IP/FP三大指标[10][11] - 模型对比:涵盖Llama2-7b/13b、Llama3-8b、Mistral-7b等主流架构[11] - 数据公开:代码及实验数据已在GitHub开源,论文获ICLR2025 oral收录[3][54]