数学推理 - 财报，业绩电话会，研报，新闻

数学推理

搜索文档

量子位· 2025-03-25 08:59

西风发自凹非寺量子位 | 公众号 QbitAI 就在DeepSeek-V3更新的同一夜，阿里通义千问Qwen又双叒叕一次梦幻联动了—— 发布 Qwen2.5-VL-32B-Instruct 。此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。这一次的32B版本进一步兼顾尺寸和性能，可在本地运行。同时经过强化学习优化，在三个方面改进显著：对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等， Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基准上，Qwen2.5-VL-32B甚至超过了72B。举个栗子，比如根据一张交通指示牌照片，Qwen2.5-VL-32B就能做如下精细的图像理解和推理：我正在这条路上驾驶一辆大卡车，现在12点了。我能在13点之前到达110公里远的地方吗？ Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析，然后分步骤条理清晰推算出正确答案：回答更符合人类偏好；拥有更强的数学推理能力；在图像解析、内容识别以及视觉逻辑推导等任务中，表现出更强的准确性和细粒度分析能力 ...

多模态模型

视觉语言模型

数学推理

Artificial Intelligence

Qwen2.5-VL-32B-Instruct

Artificial Intelligence

Qwen2.5-VL-32B-Instruct

Qwen2.5-VL

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

量子位· 2025-03-11 13:24

多图数学推理新基准MV-MATH - 中国科学院自动化研究所推出多图数学推理全新基准MV-MATH，旨在全面评估多模态大语言模型（MLLM）在多视觉场景中的数学推理能力 [1][4][5] - MV-MATH包含2009个高质量数学问题，涵盖K-12教育场景中的真实问题，分为选择题、填空题和多步问答题三种类型，覆盖11个数学领域和三个难度级别 [7][8] - 数据集特点包括多视觉场景（每个问题包含2-8个图片）、丰富的标注（至少两名标注者交叉验证）、多样化的数学领域（11个领域）和首次引入的图像关联性特征标签 [12][13][15][16] 数据集统计与分布 - 总问题数2009个，其中选择题1109个，填空题900个（单步800个，多步100个），测试集200个问题 [9] - 难度分布为简单27%、中等48%、困难25%，图像数量分布为2图48.73%、3图15.53%、4图22.55%、5图及以上13.39% [9] - 图像关联性分为相互依赖集（1412个问题）和独立集（597个问题），问题长度最短14个字符，最长383个字符，平均80.17个字符 [9][17] 模型评估结果 - 评估24个主流开源和闭源多模态大模型，表现最好的Claude-3.5整体准确率33.9%，远低于人类水平76.5% [21][22] - 其他表现较好的模型包括GPT-4o（32.1%）、Gemini-1.5-Pro（29.1%）和Qwen-vl-max（26.9%），开源模型LLaVA-OneVision-Chat-72B准确率26.2% [21][22] - 模型在不同领域表现差异显著，Claude-3.5在算术领域准确率54.2%，但在组合几何领域仅为27.0% [24][25] 细粒度分析 - 难度级别分析显示GPT-4o在简单问题上准确率最高（40.3%），Claude-3.5在中等难度问题上最高（37.5%），困难问题上所有模型表现大幅下降（Claude-3.5仅26.6%） [27] - 图像关联性分析表明绝大多数模型在相互依赖图像子集（MD）上性能低于独立图像子集（ID），Gemini-1.5-pro差距最大（7.8%） [29][30] - 图像输入方式分析显示图像序列输入表现优于合并输入，保留图像位置和顺序信息对多图推理至关重要 [30][31] 研究意义与展望 - 研究证实MLLM在复杂多视觉感知与图像交叉理解上存在困难，多图数学推理有极大改进空间 [33] - 研究旨在推动多图数学推理发展，为视觉大模型的慢推理范式提供参考 [32][33]