Workflow
多模态大模型后训练
icon
搜索文档
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 12:11
文章核心观点 - 多模态大模型后训练中,样本难度比训练范式更为关键,仅使用强化学习策略(GRPO-only)进行优化是可行且有效的,无需监督微调(SFT)作为前置步骤 [2][3][36][37] - 研究提出了两种可量化的样本难度评估策略(PISM和CMAB),并基于此设计了分层训练框架,在多个基准测试上取得了显著性能提升 [6][7][36] 研究方法与创新 - 提出渐进式图像语义掩码(PISM)策略,通过模拟不同程度的视觉信息损失来量化样本对视觉细节的依赖程度,从而划分样本难度 [10][14][15][16][17] - 提出跨模态注意力平衡(CMAB)策略,通过分析模型生成响应时对文本和图像的注意力之比,评估跨模态交互复杂度以划分样本难度 [19][20][21][22] - 设计了两种后训练范式进行对比:GRPO-only范式(直接对中高难度样本应用强化学习)和SFT+GRPO范式(先进行监督微调再进行强化学习) [23][24][25] 实验结果与分析 - 在视觉推理任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,OCRBench达到77.8分,MMMU提升0.107,MMStar提升0.083,全面超越传统SFT+GRPO范式 [28][29] - 在视觉感知任务上,GRPO-only(中等+困难样本)范式在MathVista达到68.3分,MMVet达到50.367分,MMMU达到0.550分,MMStar达到0.629分,尤其在需要跨模态深度融合的任务中优势明显 [33][34] - 实验表明SFT阶段并未带来性能增益,甚至可能因引入“伪思维链”而限制模型真实推理能力,所有SFT+GRPO范式的性能均低于GRPO-only范式 [29][36] 行业影响与未来方向 - 该研究为多模态大模型性能提升提供了全新技术路径,推翻了“SFT是RL后训练必要前提”的传统认知,极大简化了训练流程 [3][37] - 未来研究方向包括动态难度调整、多策略融合以及在百亿参数级大模型上验证方法的泛化性 [38] - 研究代码已开源,为后续研究提供可复现的技术基础,有望推动多模态AI在医疗、教育、自动驾驶等领域的实际应用 [39][40]
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
量子位· 2025-10-15 18:20
文章核心观点 - 当前多模态大模型的后训练多以文本为中心,视觉信息常作为辅助信号,存在不足 [1] - 提出一种全新的、以视觉为中心的后训练范式“Visual Jigsaw”,旨在显式强化模型对视觉信息本身的细粒度深入理解 [1] - 该方法是一种无需额外标注、无需视觉生成模块的自监督学习任务,在图片、视频和3D三种视觉模态下均验证了有效性 [1] Visual Jigsaw 方法简介 - 该方法是一种通用的视觉信息排序重建任务,将视觉数据划分并打乱成拼图块,模型需预测正确顺序并以文字输出 [5] - 训练过程采用强化学习算法GRPO进行优化 [5] - 设计了分级奖励机制:预测完全正确奖励为1;部分正确按比例给予折扣奖励;输出无效排列则奖励为0 [6] 针对不同视觉模态的任务设计 - **Image Jigsaw**:将图片在2D空间划分为多个相同大小的子图,模型需恢复正确的空间顺序 [7] - **Video Jigsaw**:将视频在时间维度分割成等长片段,模型需重建原始的时间顺序 [8] - **3D Jigsaw**:从RGB-D图像采样深度点,在图片中标注其位置和打乱后的序号,模型需恢复由近到远的深度次序 [9] 实验结果:Image Jigsaw - 经过Image Jigsaw训练,模型在多项视觉中心基准测试上获得稳定提升 [10] - 在细粒度感知与理解、基于单目图像的空间感知和理解、组合式视觉理解与推理三类任务上均有效 [10] - 具体提升示例:在MMV测试集上,模型性能从55.33提升至60.66(+6.00);在VSR测试集上,从59.95提升至65.81(+6.06)[10] - 提升源于任务要求模型关注局部细节、推理整体空间布局并理解不同部分间关系,直接促进了细粒度、空间和组合式理解 [11] 实验结果:Video Jigsaw - 经过Video Jigsaw训练,模型在各类通用视频理解基准上均表现出稳定提升 [13] - 在需要时间维度推理和时间方向性理解的任务(如AoTBench)上提升尤为显著 [14] - 在CVBench上大幅提升,验证了模型在跨视频理解与推理上的增强 [14] - 具体提升示例:在nogroup mcq测试中,使用64帧时,模型性能从52.41提升至57.64(+3.40)[13] - 任务促使模型更好地捕捉时间连续性、理解视频间关联、推理方向一致性,从而提升整体视频理解能力 [14] 实验结果:3D Jigsaw - 经过3D Jigsaw训练,模型在各类3D基准任务上取得显著提升 [15] - 最突出的提升出现在与深度估计直接相关的DA-2K任务上,性能从54.45提升至71.56(+17.11)[15] - 在单视角基准(如3DSRBench)、多视角基准(如ViewSpatial)及第一人称视频基准(如VSI-Bench)上也观察到一致提升 [15] - 结果表明该方法不仅让模型掌握了深度排序技能,也有效增强了其整体的三维空间感知与推理能力 [15] 总结与意义 - Visual Jigsaw提供了一种以视觉为中心的轻量、可验证、无需标注的新型自监督后训练范式 [16] - 该方法为多模态大模型的视觉感知能力注入了全新活力 [16] - 该工作有望启发学界设计更多聚焦视觉信息本身的自/弱监督任务,以提升模型对各类视觉信息的感知和理解能力 [16]