首个多模态专用慢思考框架!超GPT-o1近7个百分点,强化学习教会VLM「三思而后行」
量子位·2025-06-06 21:45
VL-Rethinker团队 投稿 量子位 | 公众号 QbitAI 1.1 GRPO中的「优势消失」问题 (Vanishing Advantages) 在GRPO算法中,优势信号(advantage)是通过比较同一查询组内不同候选回复的奖励来计算的 。当同一个问题组内所有回答获得相同奖 励(例如,全部正确或全部错误)时,计算得到的优势信号便为零 。研究团队发现,在GRPO训练多模态模型的过程中,随着训练的推进, 出现零优势信号的样本比例显著增加,这种现象被定义为 「优势消失」 (Vanishing Advantages) 。 相比于用于更多高质量推理数据的纯文本推理,Vanishing Advantages在能力较强的多模态模型强化学习时尤其突出。 这种显著的Vanishing Advantages源于两方面原因: 在文本推理领域,以GPT-o1、DeepSeek-R1为代表的 "慢思考" 模型凭借显式反思机制,在数学和科学任务上展现出远超 "快思考" 模型 (如 GPT-4o)的优势。 然而,当战场转移至多模态推理场景时,这些「思维巨匠」却表现平平:GPT-o在MathVista、MathVerse等多模 ...