Workflow
多图数学推理
icon
搜索文档
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 13:24
多图数学推理新基准MV-MATH - 中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力 [1][4][5] - MV-MATH包含2009个高质量数学问题,涵盖K-12教育场景中的真实问题,分为选择题、填空题和多步问答题三种类型,覆盖11个数学领域和三个难度级别 [7][8] - 数据集特点包括多视觉场景(每个问题包含2-8个图片)、丰富的标注(至少两名标注者交叉验证)、多样化的数学领域(11个领域)和首次引入的图像关联性特征标签 [12][13][15][16] 数据集统计与分布 - 总问题数2009个,其中选择题1109个,填空题900个(单步800个,多步100个),测试集200个问题 [9] - 难度分布为简单27%、中等48%、困难25%,图像数量分布为2图48.73%、3图15.53%、4图22.55%、5图及以上13.39% [9] - 图像关联性分为相互依赖集(1412个问题)和独立集(597个问题),问题长度最短14个字符,最长383个字符,平均80.17个字符 [9][17] 模型评估结果 - 评估24个主流开源和闭源多模态大模型,表现最好的Claude-3.5整体准确率33.9%,远低于人类水平76.5% [21][22] - 其他表现较好的模型包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%),开源模型LLaVA-OneVision-Chat-72B准确率26.2% [21][22] - 模型在不同领域表现差异显著,Claude-3.5在算术领域准确率54.2%,但在组合几何领域仅为27.0% [24][25] 细粒度分析 - 难度级别分析显示GPT-4o在简单问题上准确率最高(40.3%),Claude-3.5在中等难度问题上最高(37.5%),困难问题上所有模型表现大幅下降(Claude-3.5仅26.6%) [27] - 图像关联性分析表明绝大多数模型在相互依赖图像子集(MD)上性能低于独立图像子集(ID),Gemini-1.5-pro差距最大(7.8%) [29][30] - 图像输入方式分析显示图像序列输入表现优于合并输入,保留图像位置和顺序信息对多图推理至关重要 [30][31] 研究意义与展望 - 研究证实MLLM在复杂多视觉感知与图像交叉理解上存在困难,多图数学推理有极大改进空间 [33] - 研究旨在推动多图数学推理发展,为视觉大模型的慢推理范式提供参考 [32][33]