多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

多模态大模型推理能力评估 - 复旦大学、香港中文大学MMLab及上海人工智能实验室联合推出MME-Reasoning基准，全面评估多模态大模型(MLLMs)的推理能力，涵盖演绎、归纳和溯因三种推理类型[1][3][4] - 基准包含1188道题目，其中84.85%为新增题目，15.15%为抽样题目，题型包括选择题(58.50%)、自由形式问题(31.57%)和基于规则的题目(9.93%)[9] - 题目设计弱化学科知识依赖，聚焦K12以下难度，避免知识盲区干扰推理能力测试[11] 推理类型与评估维度 - 演绎推理通过规则和前提推导结论，归纳推理从大量案例学习规则，溯因推理通过结论反推前提[5] - 评估维度包括五种能力：模式分析、规划与探索、空间与时间、计算、因果链分析，每道题目标注1-5种能力[11] - 题目难度分为三级，图像类型包含单图(58.50%)和多图(31.57%)问题，学科类题目占比31.48%[8][9] 模型表现分析 - 30余个模型评测显示最优成绩仅60.2%(Gemini-2.5-Pro-T)，显示基准挑战性极强[2][18] - 模型表现存在显著偏差：演绎推理平均得分最高(如Gemini-2.5-Pro-T达64.0)，溯因推理最弱(如开源模型R1-VL-7B仅15.8)[18][19] - 闭源"思考模式"模型普遍优于基础版，如Gemini-2.5-Pro-T比Gemini-2.5-Flash-T高35个百分点[18] 技术瓶颈与发现 - 开放式问题表现最差，规划与探索类任务平均得分最低(如Mulberry仅13.3)[18][20] - 规则强化学习在7B规模模型上效果有限，可能降低泛化能力(如R1-VL-7B得分21.1)[18][20] - 推理过程存在边际效应：输出token超1k时准确率提升趋缓，o4-mini案例达24.6k token但效率下降[22][25] 模型行为特征 - 案例显示模型存在结构化规划行为，包含假设生成-验证-反思的多次迭代(最高达7次)[25][26] - 开源模型表现显著落后闭源模型，Qwen2.5-VL-72B最高34.1分，仅为闭源头部模型的56%[18] - 多图像问题(占比31.57%)和学科类问题(占比31.48%)构成主要挑战点[9][11]