稀疏内存微调 - 财报，业绩电话会，研报，新闻

稀疏内存微调

搜索文档

36氪· 2025-10-27 13:13

持续学习的背景与路径 - 大型语言模型界正集体尝试突破持续学习和元学习能力的天花板，目标是实现模型的自我进化[1] - 实现持续学习的关键在于模型的“记忆”深度和可塑性，主流方法可归纳为三条主要路径[2] 路径一：改变上下文 - 通过修改模型的“工作记忆”，即上下文学习，使模型在当前对话中学会解决特定问题[4] - 最新进展是“系统提示学习”，模型通过语言层面的总结与归纳来反思成功与失败，并更新系统提示词以提升未来能力[4] - 此方法通过影响模型底层行为指令，使学习成果得以沉淀，解决了上下文学习浮于表面的问题[6] 路径二：引入外部记忆库 - 通过检索增强生成给模型配备外置数据库，持续学习体现在模型有能力更改、积累和维护此外部记忆库[7] - 谷歌DeepMind的“Reasoningbank”研究打造了一个“高级大脑记忆库”，存储从经验中总结出的“方法论”和“避坑指南”，而非零碎事实[7] - Anthropic的Claude Skill功能结合了上述两层方法，让智能体通过总结经验来学习新技能[9] 路径三：参数层面更新 - 此最根本的路径因训练开销巨大或方法不稳定而长期进展缓慢，例如强化学习和轻量化监督微调[9] - Meta AI的新论文《通过稀疏内存微调实现持续学习》为这条路径带来了根本性改变[9][11] 监督微调的挑战与Meta的解决方案 - 监督微调面临“灾难性遗忘”的根本矛盾，即学习新知识时会破坏存储旧知识的参数[11] - Meta提出的稀疏内存微调方法核心思想是只更新与“新知识”相关而与“旧知识”无关的参数[11] - 解决方案第一步是改造架构，将标准Transformer中的一些前馈网络层替换为拥有100万个“微型专家”的内存层，提供精细控制力[12][14][15] - 第二步引入TF-IDF算法精准定位既重要又安全的参数，即对新知识至关重要且不负责通用知识的参数[16][17][18][19][21] - 第三步进行稀疏更新，在反向传播时只允许梯度流向TF-IDF得分最高的Top-t个内存槽位，例如仅更新100万个槽位中的500个[22] 新方法的效果与优势 - 在学习新事实后测试原有任务表现，新方法仅导致分数下降11%，而LoRA下降71%，全量微调下降89%[23] - 新方法在学习能力上相当或更优，并在稳定性上具有压倒性优势，几乎治愈了监督微调的核心痛点[25][28] - 存储1000个新事实仅需占用约500个内存插槽，显示该方法具有持续学习海量新知识的巨大潜力[26] - 训练成本上，每一步需要更新的参数数量也远少于LoRA，降低了优化器的内存开销[26] 不同路径的比较与未来展望 - 非参数化学习路径存在根本尴尬，模型像依赖外部教科书或自己笔记的学生，未能真正内化知识[29] - 研究指出上下文学习泛化能力有限，因其过度关注统计特征而非任务根本规律[29] - 参数更新路径是更根本的解决方案，Meta的方案使其变得安全、稳定和可控[30][31] - 该进展意味着监督微调的春天可能来临，模型有望从静态工具转变为在经验流中不断成长的智能体[31][32]

Meta Platforms(US:META)

Artificial Intelligence

Artificial Intelligence