Workflow
灾难性遗忘
icon
搜索文档
机器情感与AI陪伴的人文审度⑥|邱德钧、李玮农:超越记忆——情感计算中遗忘的必要性和实现
新浪财经· 2025-07-17 10:25
人形机器人行业发展 - 2024年被称为"人形机器人元年",预测机器人大规模进入家居生活场景,人机情感交流将成为智能社会常态 [1] - 机器情感与AI陪伴概念引发跨学科研究热潮,涉及哲学、马克思主义理论、文学和人工智能等领域 [1] - 行业关注焦点包括人机交互影响、文化/性别视角分析、社会冲击评估及技术伦理应对方案 [1] 机器情感技术研究 - 建构主义理论提出机器情感发展的有限主义进路,从情感智能、人机互动三方面剖析建构性 [2] - 基于"以生命为核心"的意识理论,通过模拟生物体内稳态调节机制赋予机器情感能力,为通用AI提供新思路 [2] - AI复活技术催生新型人机情感交互形式,但存在情感依赖、异化等伦理风险,需制度规约与技术设计协同治理 [2] 情感计算技术进展 - 情感计算领域自1997年提出以来,致力于使计算机识别、理解、表达和调节人类情感 [4] - 当前技术面临数据集质量不足、情感表达机械化、动态重构困难等挑战,线性进步假设脱离实际 [6] - 主流研究聚焦情感状态实时分类,普遍忽视情感信息的长期记忆管理和遗忘机制建模 [7] 遗忘机制技术创新 - 提出类人遗忘神经计算模型(PHFNM),整合自然衰退与主动遗忘机制,包含三层架构设计 [19][22] - 模型通过低维情感索引层模拟意识体验淡化特性,避免高维数据存储的计算过载 [23] - 引入情感稳固因子矩阵,量化记忆重要性差异,比单一衰减模型更符合心理学观察 [26][31] - 主动遗忘层基于伦理信号和全局情绪强度实现记忆动态调节,支持高级情感适应性行为 [25][31] 技术局限性 - 模型情感表示简化,低维向量难以捕捉复杂情感细微差别,未区分记忆类型内部结构 [32] - 离散时间步更新与线性假设简化了现实情感过程的连续性和非线性交互特性 [32][34] - 参数固定缺乏元学习机制,无法根据经验调整遗忘策略或对情绪信号的敏感度 [33]
函数向量对齐技术,让大模型持续学习不“失忆”丨ICLR 2025
量子位· 2025-05-30 13:01
大语言模型的灾难性遗忘研究 核心观点 - 大语言模型(LLMs)的灾难性遗忘本质是功能激活偏差而非能力覆盖,表现为新任务学习时旧任务功能未被正确激活[1][2] - 函数向量(FVs)可作为量化遗忘现象的工具,其相似度与模型性能下降呈强相关性(R²=0.873)[26][27] - 提出的FVG训练方法通过正则化技术保留函数向量,在持续学习任务中显著提升模型通用能力[44][51] 遗忘现象特征 - 任务类型差异:生成任务序列导致的遗忘程度(如NI-Seq-G1使Llama3-8b通用任务性能下降10.7%)显著高于分类任务(4.48%)[11][20] - 模型依赖性:Llama2-7b在混合任务序列(NI-Seq-M1)中遗忘指数达4.69,而Mistral-7b同条件下仅4.95[11] - 动态可逆性:训练初期性能下降后可能出现恢复,表明部分遗忘能力可被重新激活[20] 函数向量机制 - 构建方法:通过干预前10个关键注意力头(layer-head)的平均激活值(CE值最高)求和获得[15][18][21] - 作用原理:函数向量偏移导致输入激活机制变化,而非旧功能被覆盖(相似度降低时性能下降30%+)[26][35] - 验证实验:插入旧任务函数向量可使被遗忘任务性能恢复83%以上[43] FVG训练方法 - 双重正则化: 1) 函数向量一致性损失(L2距离约束层头激活值变化)[44] 2) KL散度损失保持零样本与干预输出的概率分布对齐[46] - 优化目标:联合损失函数平衡系数λ₁=0.1,λ₂=0.01时效果最佳[48] - 实测效果:在SuperNI数据集上使上下文学习性能下降减少19.6%(对比基线)[11][51] 技术实现细节 - 实验设置:采用6种任务序列(生成/分类/混合)评估GP/IP/FP三大指标[10][11] - 模型对比:涵盖Llama2-7b/13b、Llama3-8b、Mistral-7b等主流架构[11] - 数据公开:代码及实验数据已在GitHub开源,论文获ICLR2025 oral收录[3][54]