AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
36氪·2025-10-15 20:27

研究背景与核心观点 - 当前多模态大模型的后训练范式以强化学习驱动,但大多以文本为中心,视觉部分仅作为辅助信号被动输入[1] - 研究提出在后训练阶段重新审视视觉自监督学习的潜力,设计以视觉为中心的后训练方法,以增强模型对视觉信息的细粒度深入理解[1] - 来自MMLab@南洋理工大学的最新论文提出全新后训练任务Visual Jigsaw,将自监督拼图任务重新设计为多模态大模型后训练的核心目标[1] Visual Jigsaw 方法简介 - Visual Jigsaw是一类通用的对视觉信息的排序重建任务,给定图片、视频或3D数据,进行划分并打乱顺序,模型需预测正确顺序并以文字输出[5] - 训练过程采用强化学习算法GRPO优化,并设计了分级奖励机制:预测完全正确奖励为1,部分正确按比例给奖励并乘折扣系数,无效输出奖励为0[5] - 针对不同视觉模态有具体设计:Image Jigsaw恢复2D空间顺序,Video Jigsaw重建时间顺序,3D Jigsaw恢复由近到远的深度次序[5] Image Jigsaw实验结果 - 经过Image Jigsaw训练,模型在三类视觉中心基准上均获稳定提升,包括细粒度感知与理解、基于单目图像的空间感知和理解、组合式视觉理解与推理[7] - 具体提升包括:在IMStar基准上从55.33提升至60.66(+6.00),在Mono基准上从59.95提升至65.81(+6.06),在Compositional Und基准上从84.19提升至84.45(+1.12)[7] - 方法显著增强模型感知能力和细粒度视觉理解,要求模型关注局部细节、推理整体布局并理解patch间关系,直接促进三种理解能力[8] Video Jigsaw实验结果 - 经过Video Jigsaw训练,模型在各类通用视频理解基准上表现稳定提升,尤其在需要时间维度推理和时间方向性理解的任务上提升显著[9] - 使用16帧时在基准上提升+6.15,使用32帧时提升+5.52,使用64帧时提升+5.23,在CVBench上大幅提升验证模型跨视频理解与推理的增强[9] - 视频拼图任务促使模型更好捕捉时间连续性、理解视频关联、推理方向一致性,最终提升对视频的整体和通用理解能力[10] 3D Jigsaw实验结果 - 经过3D Jigsaw训练,模型在各类3D基准任务上取得显著提升,最突出的是与深度估计直接相关的DA-2K任务,从54.45提升至71.56(+17.11)[11] - 在3DSRBench基准上从48.66提升至64.00(+15.34),在单视角、多视角和第一人称视频基准上也观察到一致提升[11] - 方法不仅让模型掌握深度排序特定技能,同时有效增强整体三维空间感知与推理能力[11] 技术贡献与影响 - Visual Jigsaw提供以视觉为中心的轻量、可验证、无需标注的新型自监督后训练范式,为多模态大模型的视觉感知注入新活力[12] - 该工作展示视觉拼图任务潜力,启发学界设计更多聚焦视觉信息本身的自/弱监督任务,让模型更好感知和理解各类视觉信息[12]