Workflow
早期经验(Early Experience)中训练范式
icon
搜索文档
Meta最新论文解读:别卷刷榜了,AI Agent的下一个战场是“中训练”
36氪· 2025-10-13 15:19
AI行业竞争焦点转变 - 2025年AI竞争焦点从跑分比拼转向Agent自主完成复杂长程任务的能力 [1] - 行业巨头如xAI和Anthropic发布新品时均强调同一能力 [1] - AI的下一战场被明确为通用Agent [2] Agent落地的现实瓶颈 - 除编程领域外,Agent落地应用寥寥无几 [2] - 核心瓶颈之一是反馈机制的困境 [2] - 现有反馈机制要么太弱要么太贵,阻碍预训练模型蜕变为强大Agent [2] 主流Agent训练方法的局限性 - 模仿学习(监督微调)依赖昂贵静态反馈,高质量专家数据难以大规模生产 [4] - 模仿学习导致模型泛化能力极差,无法适应训练数据外的情况 [4] - 强化学习依赖复杂动态反馈,在真实世界任务中奖励信号常缺失、稀疏或延迟 [5] - 强化学习应用高度依赖精心设计的奖励函数或人工调整的训练流程 [5] Meta提出的“中训练”范式 - Meta等机构在2025年10月论文中提出“早期经验”的“中训练”范式 [2][7] - 该范式利用Agent自己探索产生的状态变化作为宝贵的学习信号 [7] - 设计两种具体训练策略:隐式世界建模和自我反思 [7] 隐式世界建模策略 - 让Agent学会预测“如果我这么做,世界会变成什么样” [9] - 具体步骤包括自我尝试、记录数据、微调训练预测能力 [9] - 通过大量“作死”和观察后果,让Agent悟出世界运行规律 [10] 自我反思策略 - 让Agent学会解释“为什么专家的做法比我的其他想法更好” [11] - 具体步骤包括自我尝试、教练点评、微调训练预思考能力 [11] - 训练Agent学会先生成反思推理再输出正确动作 [11] “中训练”范式的有效性验证 - 在8个多样化环境中测试显示,平均成功率比传统模仿学习提升9.6% [15] - 在未见过的任务上表现提升9.4%,显示强大泛化能力 [15] - 作为强化学习初始化时,最终性能提升最多6.4% [15] - 提升在不同复杂度的环境中保持稳定 [17] “中训练”的理论基础与价值 - 谷歌DeepMind研究证明成功Agent内部必须拥有准确“世界模型” [18] - 传统模仿学习只学习从状态到行为的浅层映射 [20] - “早期经验”补上了建立世界因果理解的关键课程 [21] - 可能需“预训练+中训练+后训练”三段式训练范式通往通用Agent [23] 参数效率与新Scaling Law可能性 - “早期经验”展示通过自我递归训练释放参数潜力的可能性 [25][27] - 700M参数小模型经训练后可在某些任务上超越参数量大十几倍的大模型 [25] - 传统增加参数量的做法边际收益递减很快 [27] - 可能预示一个新的属于Test Time Compute的Scaling Law [28]