大语言模型隐私风险与机器遗忘技术 - 大语言模型(LLMs)能力提升的同时面临隐私风险,训练中敏感信息可能被模型"记住" [1] - 机器遗忘(Machine Unlearning)技术旨在选择性抹除特定知识而不影响整体能力 [2] 遗忘机制的核心发现 - 研究团队首次区分"可逆性遗忘"与"灾难性不可逆遗忘",揭示遗忘需多网络层协同大幅扰动 [2] - 高敏感区域(如输出logits)轻微更新仅改变行为表现,内部表示结构保持完整 [2] - 真正的遗忘是结构性抹除,仅token输出变化而内部结构未变则可能快速恢复 [3] 表示空间分析工具 - 开发统一表示层分析工具箱,支持诊断LLM在Unlearning/Relearning/Finetuning过程的内在变化 [2] - 工具包含PCA Similarity/Shift、CKA相似性分析、Fisher信息矩阵(FIM)三类指标 [6][10][13] - PCA分析显示可逆性遗忘的主方向高度恢复,不可逆性遗忘呈现广泛漂移 [9][10] 实验验证与数据表现 - 在Yi-6B模型上验证:可逆遗忘场景下Relearning后准确率快速恢复,不可逆场景结构严重扰动 [6] - 持续遗忘(如100条请求)比单次操作风险更高,GA/RLabel方法破坏性强,GA+KL/NPO稳定性更佳 [17] - Qwen2.5-7B复杂任务(MATH/GSM8K)实验显示可逆场景中Relearning后性能可超越初始状态 [16] 技术应用与潜在价值 - 不可逆遗忘伴随PCA主方向旋转、分布漂移、Fisher质量下降等结构性变化 [18] - 部分场景中Unlearning可能带来隐式增强效果,Relearning后表现优于原始状态 [19] - 结构诊断工具(PCA/CKA/FIM)可定位破坏位置,为可控安全遗忘机制奠定基础 [20]
揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘
量子位·2025-06-01 11:40