Workflow
美团提出多模态推理新范式:RL+SFT非传统顺序组合突破传统训练瓶颈
量子位·2025-07-21 12:23

多模态推理框架Metis-RISE - 美团研究者提出Metis-RISE混合训练框架,通过非传统顺序结合强化学习(RL)和监督微调(SFT)提升多模态大语言模型(MLLMs)推理能力 [1][2] - 框架核心策略:先通过RL激励模型探索潜在推理路径,再通过SFT针对性补足能力短板,最终生成7B和72B参数模型 [3] - 72B参数模型在OpenCompass多模态推理榜单平均得分56.6,整体排名第四,验证框架可扩展性和有效性 [3][13] 技术突破与创新 - 突破传统训练范式:省略冷启动SFT阶段,直接采用改进版GRPO算法进行RL训练,通过非对称裁剪和动态数据过滤避免无效探索 [4][6][7] - 两阶段训练机制: 1) RL阶段取消KL散度约束,采用token级策略损失和软过长惩罚,增强训练稳定性 [6] 2) SFT阶段通过自我蒸馏推理轨迹和专家增强知识注入,强化模型薄弱环节 [8] 模型性能表现 - 7B模型在≤10B参数类别中平均得分46.4,超越同类最优VLAA-Thinker-7B(42.5)和InternVL3-8B(41.4) [12] - 72B模型平均得分56.6,优于>10B参数类别的InternVL3-78B(51.0)和Qwen2.5-VL-72B(50.3),并超越部分专有模型如ChatGPT-4o(54.8) [13] - 消融实验显示RL阶段使7B模型平均分提升4.8(39.2→44.0),混合SFT进一步带来2.4分增益 [15][16] 技术细节与优化 - RL阶段准确率奖励与响应长度呈正相关,表明模型思维链逐渐清晰 [17] - SFT数据策略: - 对推理不一致的prompt采用自我蒸馏轨迹(正确性得分0-1) [8] - 对完全失败的prompt(得分0)引入外部专家生成解决方案 [8] - 基于Qwen2.5-VL系列开发,采用VLMEvalKit和OpenCompass进行基准测试 [9][10]