Workflow
改变强化学习范式,Meta新作呼应Sutton「经验时代」预言

机器之心报道 编辑:张倩、泽南 然而,在许多环境中,基于经验数据使用强化学习来训练智能体仍然面临挑战。一方面,这些环境往往缺乏可验证或密集的奖励信号 —— 尤其是在开放式场景中 (例如网页环境通常不会返回明确的任务反馈);另一方面,智能体可能需要在长时间跨度内进行低效的探索与泛化,例如跨多轮的工具使用或复杂交互流程。 目前大多数语言智能体采用监督微调(SFT)从专家示范中学习,以避免依赖奖励信号。虽然这种方法训练高效,但缺乏环境交互,无法从失败中学习或主动探 索,同时对高质量专家数据依赖强、成本高、泛化性有限。因此,一个关键问题浮出水面: 如何让智能体在没有外部奖励的情况下,从自身经验中学习成长? 上周末,一篇来自 META 超级智能实验室(MSL)、FAIR、俄亥俄州立大学的研究为该问题提供了一种解法。 他们创新性地尝试使用一种介于模仿学习与强化学习之间的中间范式来解决上述问题,它被称为「早期经验」:智能体不仅从人工整理的数据中学习,还从自身 在环境中执行动作后产生的未来状态中学习。这些未来状态代表着智能体的「自身经验」,可以被转化为监督信号,使其能 够直接从行动后果中成 长,而无需依 赖外部奖励。 在这个 ...