多模态大模型后训练
搜索文档
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 12:11
中兴通讯AIM团队 投稿 多模态后训练环节里,样本难度比训练范式更关键,而SFT并非RL的必要前置步骤。 这项由中南大学&中兴通讯团队完成的新研究,为多模态大模型找到了可量化、可操作的"难度采样"标准,并第一次系统性验证了一个过去被 视为"不可能有效"的训练路线,即 仅靠RL强化策略(GRPO),就能独立完成多模态能力的优化 。 而研究切入点,正是多模态后训练长期卡住的两个老问题。 第一,缺乏可量化的样本难度指标。 多模态数据包含视觉与文本双重特征,文本模态难度常无法直接表征多模态样本整体难度 (如OCR、目标检测等任务) ,因此无法沿用纯文 本数据的难度划分方式,导致难以筛选对模型优化具有高价值的训练样本。 结论直截了当: 在视觉推理与视觉感知两大类基准测试上, 只用中等+困难样本训练、且完全不做SFT的GRPO-only范式,反而拿下几乎所有最优成绩。 MathVista最高68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083,相比全量数据训练大幅跃升,甚至全面超越传统 的"SFT+RL"双阶段范式。 量子位 | 公众号 QbitAI 一组被 AAAI 2026接收的 ...
AI玩拼图游戏暴涨视觉理解力,告别文本中心训练,无需标注的多模态大模型后训练范式
量子位· 2025-10-15 18:20
VisualJigsaw团队 投稿 量子位 | 公众号 QbitAI 在多模态大模型的后训练浪潮中,强化学习驱动的范式已成为提升模型推理与通用能力的关键方向。 然而,大多数现有方法仍 以文本为中心 ,视觉部分常被动地作为辅助信号输入。相比之下,我们认为在后训练阶段重新审视 视觉自监督学 习 的潜力,设计 以视觉为中心 的后训练对于增强多模态大模型对于视觉信息本身的细粒度深入理解也同样至关重要。 为此,来自MMLab@南洋理工大学的最新论文 《Visual Jigsaw Post-Training Improves MLLMs》 提出了一种全新的针对多模态大模 型后训练任务- Visual Jigsaw 。 它将经典的自监督拼图任务重新设计为多模态大模型后训练阶段的核心目标,让模型在不依赖额外标注、也无需视觉生成模块的情况下,显式 强化自身的视觉感知与理解能力。在图片,视频,和3D三种视觉模态下都验证了其有效性。 Visual Jigsaw 方法简介 对于不同视觉模态,具体的Visual Jigsaw任务设计如下 Image Jigsaw: 图片在2D空间上被划分为 个相同大小的子图,打乱后模型需恢复正确的空间 ...