Workflow
Meta最新论文解读:别卷刷榜了,AI Agent的下一个战场是“中训练”
Meta PlatformsMeta Platforms(US:META) 36氪·2025-10-13 15:19

2025年,AI竞争的焦点正在发生根本转变——从跑分比拼转向Agent任务完成能力。从xAI到Anthropic,行业巨头发布新品时都在强调同 一个能力:自主完成复杂的长程任务。 这背后是一个清晰的共识:AI的下一战场,是通用Agent。 但现实很骨感。 除了编程领域,Agent的落地应用寥寥无几。核心瓶颈之一是反馈机制的困境:要让预训练模型蜕变为强大Agent,必须通过与世界互动 获得反馈来学习。然而,现有的反馈机制,要么太弱,要么太贵。 2025年10月,Meta等机构发表的论文《Agent Learning via Early Experience》提出了第三条路——"中训练"范式,试图用一种廉价而有效 的反馈形式,为Agent训练搭建关键桥梁。(论文链接:https://arxiv.org/abs/2510.08558) 01 反馈的鸿沟:两条"瘸腿"的主流路径 在深入了解Meta的解决方案之前,我们先了解一下反馈的困境究竟是什么。目前主流的Agent后训练方法有两种,但其反馈形式,各有其 难以克服的"昂贵"代价。 第一种方法是模仿学习,也就是监督微调(SFT)。 它依赖于一种"昂贵的静态反馈"。这种 ...