边学边练，推理觉醒：LUFFY让强化学习即学即用！

核心观点 - 上海AI实验室联合西湖大学、南京大学和香港中文大学的研究团队提出了一种全新的强化学习范式LUFFY，旨在解决AI模型训练中“只学不练”和“只练不学”的两难困境 [1][2] - LUFFY通过混合使用在线推理和离线示范轨迹，实现“边学边练”的目标，在多个数学推理任务中平均提升7.0分，并在分布外任务上展现出显著泛化能力 [2][4][24] - 该方法在Hugging Face社区和alphaXiv学术论坛引起广泛关注 [5] 模仿学习与强化学习的两难困境 - 模仿学习(SFT)通过参考专家解题轨迹快速学习已知方法，但遇到新题时缺乏自主能力 [8] - 强化学习(Zero-RL)通过试错获得奖励反馈并优化策略，具备泛化能力但容易陷入局部最优 [10] - 两种方法分别存在“泛化差”和“效率低”的问题 [1] LUFFY的直觉与机制 - 关键思想是在强化学习过程中引入“离策略指导”，混合使用模型自身生成的在线推理过程和来自更强模型的离线示范轨迹 [14] - 通过“策略塑形”机制，在模型自身推理失败时从专家示范中学习关键步骤，表现优异时保持独立探索 [16] - 该机制引导模型聚焦低概率但关键的行动，实现推理能力的持续进化与泛化 [16] 技术亮点 - 混合策略训练：同时利用在线轨迹和离线示范，引导模型向高奖励动作靠拢并保留有效尝试 [18] - 策略塑形函数：通过非线性加权机制强化对关键步骤的学习，防止过早收敛并保持持续探索 [18][20] - 基于GRPO算法框架实现，提升对罕见但重要行为的梯度响应 [18][21] 实验结果 - 在AIME 2024、AIME 2025、AMC、MATH-500、Minerva Math和OlympiadBench六个基准测试中平均准确率达49.6%，较Zero-RL方法提升+7.0分 [4][24] - 在Qwen2.5-Math-1.5B小模型上表现显著优于基线，平均得分从34.8提升至42.1 [27] - 推理路径长度优于SFT，能用更短过程达成正确答案，且在增加探索强度时性能保持稳定 [28][31] 应用前景 - 可扩展至代码生成、科学问答、自动规划等需要复杂推理的AI任务 [33] - 项目已在GitHub开源，具备复现和拓展潜力 [34]