Workflow
边学边练,推理觉醒:LUFFY让强化学习即学即用!
机器之心·2025-05-05 11:40

破解 "只学不练" 与 "只练不学" 的难题 想象你准备参加一场高水平的数学竞赛。如果你只是反复背诵往年题目的标准答案,从不亲自动手解题,那么一旦遇到新题型,很可能束手无策;反过来,如果 你闭门造车,只凭自己反复试错而从不参考老师和高手的解题经验,进步又会异常缓慢。这就好比 AI 模型 训练中长期存在的两种极端: 「 模仿学习 」 只顾照搬 示范却缺乏自我实践, 「强化学习 」 一味自我探索却不借鉴现有经验。 这两种 「只学不练 」 和 「只练不学 」 的策略各有弊端:前者往往学得快但 泛化差 ,后者可能探索勤但 效率低 。那么,有没有两全其美的办法,让模型既能借 鉴高手经验又能保持自主探索?最近,上海 AI 实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式: LUFFY(Learning to reason Under oFF-policY guidance) 。 论文链接:https://arxiv.org/abs/2504.14945 代码仓库:https://github.com/ElliottYan/LUFFY 图表 1. 在六项竞赛级数学推理基准上的整体表现。在 A ...