Workflow
稀疏内存微调
icon
搜索文档
Meta拆掉AI持续学习路上的最大炸弹,“微调”又有了一战之力
36氪· 2025-10-27 13:13
持续学习的背景与路径 - 大型语言模型界正集体尝试突破持续学习和元学习能力的天花板,目标是实现模型的自我进化[1] - 实现持续学习的关键在于模型的“记忆”深度和可塑性,主流方法可归纳为三条主要路径[2] 路径一:改变上下文 - 通过修改模型的“工作记忆”,即上下文学习,使模型在当前对话中学会解决特定问题[4] - 最新进展是“系统提示学习”,模型通过语言层面的总结与归纳来反思成功与失败,并更新系统提示词以提升未来能力[4] - 此方法通过影响模型底层行为指令,使学习成果得以沉淀,解决了上下文学习浮于表面的问题[6] 路径二:引入外部记忆库 - 通过检索增强生成给模型配备外置数据库,持续学习体现在模型有能力更改、积累和维护此外部记忆库[7] - 谷歌DeepMind的“Reasoningbank”研究打造了一个“高级大脑记忆库”,存储从经验中总结出的“方法论”和“避坑指南”,而非零碎事实[7] - Anthropic的Claude Skill功能结合了上述两层方法,让智能体通过总结经验来学习新技能[9] 路径三:参数层面更新 - 此最根本的路径因训练开销巨大或方法不稳定而长期进展缓慢,例如强化学习和轻量化监督微调[9] - Meta AI的新论文《通过稀疏内存微调实现持续学习》为这条路径带来了根本性改变[9][11] 监督微调的挑战与Meta的解决方案 - 监督微调面临“灾难性遗忘”的根本矛盾,即学习新知识时会破坏存储旧知识的参数[11] - Meta提出的稀疏内存微调方法核心思想是只更新与“新知识”相关而与“旧知识”无关的参数[11] - 解决方案第一步是改造架构,将标准Transformer中的一些前馈网络层替换为拥有100万个“微型专家”的内存层,提供精细控制力[12][14][15] - 第二步引入TF-IDF算法精准定位既重要又安全的参数,即对新知识至关重要且不负责通用知识的参数[16][17][18][19][21] - 第三步进行稀疏更新,在反向传播时只允许梯度流向TF-IDF得分最高的Top-t个内存槽位,例如仅更新100万个槽位中的500个[22] 新方法的效果与优势 - 在学习新事实后测试原有任务表现,新方法仅导致分数下降11%,而LoRA下降71%,全量微调下降89%[23] - 新方法在学习能力上相当或更优,并在稳定性上具有压倒性优势,几乎治愈了监督微调的核心痛点[25][28] - 存储1000个新事实仅需占用约500个内存插槽,显示该方法具有持续学习海量新知识的巨大潜力[26] - 训练成本上,每一步需要更新的参数数量也远少于LoRA,降低了优化器的内存开销[26] 不同路径的比较与未来展望 - 非参数化学习路径存在根本尴尬,模型像依赖外部教科书或自己笔记的学生,未能真正内化知识[29] - 研究指出上下文学习泛化能力有限,因其过度关注统计特征而非任务根本规律[29] - 参数更新路径是更根本的解决方案,Meta的方案使其变得安全、稳定和可控[30][31] - 该进展意味着监督微调的春天可能来临,模型有望从静态工具转变为在经验流中不断成长的智能体[31][32]