SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

核心观点 - 研究发现监督微调（SFT）在多模态推理中可能阻碍学习，导致伪推理路径，而强化学习（RL）则促进真正的多模态推理 [3][9] - 传统两阶段训练范式（SFT+RL）在视觉语言模型（LVLM）中可能导致性能下降，7B模型相对性能下降47% [11][13] - 纯RL训练方案更具优势，VLAA-Thinker-Qwen2.5VL-3B模型在Open LMM推理榜单4B量级模型中位列第一，以1.8%优势刷新纪录 [15] 数据集构建 - 研究者构建了首个支持SFT与RL的全方位高质量图文推理数据集VLAA-Thinking，包含203,182条原始数据和144,895条处理后的数据 [4][5] - 数据集包含基于R1模型"先思考后回答"范式生成的完整推理链条，SFT分支包含多模态思维链样本，RL分支筛选更具挑战性的样本 [5] - 数据处理流程分为六阶段：元数据收集→图像描述生成→基于R1的知识蒸馏→答案重写→人工验证→数据划分 [6] SFT与RL对比研究 - SFT提高了模型在标准任务中的性能，但在增强复杂推理方面能力欠缺，可能诱发"伪推理路径"和"伪aha moment" [9] - 对已对齐模型使用SFT+GRPO会导致平均12.7%的性能下降，且模型规模差异影响甚微 [13] - SFT虽可帮助未对齐模型遵循指令，但其模仿式推理会限制RL阶段的探索空间 [15] GRPO训练优势 - 强化学习在增强推理能力方面表现出色，GRPO在文本数学推理任务中比其他方法更有效、更高效 [17] - 研究者提出了混合奖励框架，包含五种可验证的奖励类型，涵盖视觉感知和视觉推理任务 [19] - 直接使用GRPO训练的模型在视觉语言推理任务中显著优于其基础模型 [31] SFT对GRPO的影响 - SFT与多模态推理中的GRPO不兼容，在GRPO训练前进行SFT的模型性能比仅使用GRPO训练的模型更差，平均下降8.9% [21] - SFT对指令模型的性能损害比对没有指令跟随能力的基础模型更大，Qwen2VL-Inst性能比Qwen2VL-Base下降7.7% [21] - 较小的SFT数据集仍然会影响GRPO的性能 [23] 模型性能分析 - 响应长度、奖励分数与性能表现无显著相关性，SFT模型虽能获得更高初始奖励和更长响应，但实际表现逊于纯RL训练模型 [15][24] - SFT仅提供了RL训练的一个更高的"下限"，但可能会降低"上限"，限制了模型的探索路径 [26] - 经过更好指令调优的模型在GRPO训练后表现更佳，说明高质量的指令调优能够增强模型在强化学习后的推理能力 [31]