Workflow
大模型自我更新
icon
搜索文档
0人工参与实现梯度更新,,MIT新框架让AI自动生成微调数据,权重自主升级
36氪· 2025-10-14 15:16
大模型终于学会更新自己了! MIT提出一种新的强化学习框架,让模型生成微调数据和自我更新指令,实现模型权重的更新。 无需人工参与,模型就可以自动进行梯度更新,自主学习获取新知识或适应新任务。 该框架名为SEAL(Self-Adapting LLMs),是一种内外两层嵌套的学习机制。 这种机制下,会根据更新后的模型在任务上的表现计算奖励,进一步优化自我更新指令的生成策略。 SEAL首次在权重层面赋予了大模型自我驱动的更新能力,摆脱了完全依赖外部监督数据的局限。 模型自动学习知识更新策略 SEAL在论文中通过两个主要实验任务验证其效果,分别是知识注入(knowledge incorporation)和小样本学习(few-shot learning)。 这两类任务分别对应模型进化中的两种基本情境——记住新知识,以及快速适应新任务。 知识注入 在知识注入实验中,研究者使用了Qwen2.5-7B模型和SQuAD数据集中的段落及对应问题。 每轮训练开始时,模型接收到一个新的段落作为输入上下文,但不会看到与之配套的问题答案。 模型首先根据这段输入生成训练数据,然后使用LoRA进行一次小规模微调,该过程仅基于生成后的数据,不 ...