Workflow
SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心·2025-06-01 11:30

核心观点 - 研究发现监督微调(SFT)在多模态推理中可能阻碍学习,导致伪推理路径,而强化学习(RL)则促进真正的多模态推理 [3][9] - 传统两阶段训练范式(SFT+RL)在视觉语言模型(LVLM)中可能导致性能下降,7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势,VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一,以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking,包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条,SFT分支包含多模态思维链样本,RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段:元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能,但在增强复杂推理方面能力欠缺,可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降,且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令,但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色,GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架,包含五种可验证的奖励类型,涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容,在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差,平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大,Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性,SFT模型虽能获得更高初始奖励和更长响应,但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限",但可能会降低"上限",限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳,说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]