Workflow
难度感知采样策略
icon
搜索文档
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
量子位· 2025-11-28 12:11
中兴通讯AIM团队 投稿 多模态后训练环节里,样本难度比训练范式更关键,而SFT并非RL的必要前置步骤。 这项由中南大学&中兴通讯团队完成的新研究,为多模态大模型找到了可量化、可操作的"难度采样"标准,并第一次系统性验证了一个过去被 视为"不可能有效"的训练路线,即 仅靠RL强化策略(GRPO),就能独立完成多模态能力的优化 。 而研究切入点,正是多模态后训练长期卡住的两个老问题。 第一,缺乏可量化的样本难度指标。 多模态数据包含视觉与文本双重特征,文本模态难度常无法直接表征多模态样本整体难度 (如OCR、目标检测等任务) ,因此无法沿用纯文 本数据的难度划分方式,导致难以筛选对模型优化具有高价值的训练样本。 结论直截了当: 在视觉推理与视觉感知两大类基准测试上, 只用中等+困难样本训练、且完全不做SFT的GRPO-only范式,反而拿下几乎所有最优成绩。 MathVista最高68.3、OCRBench达77.8、MMMU提升0.107、MMStar提升0.083,相比全量数据训练大幅跃升,甚至全面超越传统 的"SFT+RL"双阶段范式。 量子位 | 公众号 QbitAI 一组被 AAAI 2026接收的 ...