数学推理

搜索文档
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位· 2025-03-25 08:59
西风 发自 凹非寺 量子位 | 公众号 QbitAI 就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了—— 发布 Qwen2.5-VL-32B-Instruct 。 此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。 这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。 同时经过强化学习优化,在三个方面改进显著: 对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基 准上,Qwen2.5-VL-32B甚至超过了72B。 举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B就能做如下精细的图像理解和推理: 我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗? Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案: 回答更符合人类偏好; 拥有更强的数学推理能力; 在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力 ...
大模型全军覆没,中科院自动化所推出多图数学推理新基准 | CVPR 2025
量子位· 2025-03-11 13:24
多图数学推理新基准MV-MATH - 中国科学院自动化研究所推出多图数学推理全新基准MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力 [1][4][5] - MV-MATH包含2009个高质量数学问题,涵盖K-12教育场景中的真实问题,分为选择题、填空题和多步问答题三种类型,覆盖11个数学领域和三个难度级别 [7][8] - 数据集特点包括多视觉场景(每个问题包含2-8个图片)、丰富的标注(至少两名标注者交叉验证)、多样化的数学领域(11个领域)和首次引入的图像关联性特征标签 [12][13][15][16] 数据集统计与分布 - 总问题数2009个,其中选择题1109个,填空题900个(单步800个,多步100个),测试集200个问题 [9] - 难度分布为简单27%、中等48%、困难25%,图像数量分布为2图48.73%、3图15.53%、4图22.55%、5图及以上13.39% [9] - 图像关联性分为相互依赖集(1412个问题)和独立集(597个问题),问题长度最短14个字符,最长383个字符,平均80.17个字符 [9][17] 模型评估结果 - 评估24个主流开源和闭源多模态大模型,表现最好的Claude-3.5整体准确率33.9%,远低于人类水平76.5% [21][22] - 其他表现较好的模型包括GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%),开源模型LLaVA-OneVision-Chat-72B准确率26.2% [21][22] - 模型在不同领域表现差异显著,Claude-3.5在算术领域准确率54.2%,但在组合几何领域仅为27.0% [24][25] 细粒度分析 - 难度级别分析显示GPT-4o在简单问题上准确率最高(40.3%),Claude-3.5在中等难度问题上最高(37.5%),困难问题上所有模型表现大幅下降(Claude-3.5仅26.6%) [27] - 图像关联性分析表明绝大多数模型在相互依赖图像子集(MD)上性能低于独立图像子集(ID),Gemini-1.5-pro差距最大(7.8%) [29][30] - 图像输入方式分析显示图像序列输入表现优于合并输入,保留图像位置和顺序信息对多图推理至关重要 [30][31] 研究意义与展望 - 研究证实MLLM在复杂多视觉感知与图像交叉理解上存在困难,多图数学推理有极大改进空间 [33] - 研究旨在推动多图数学推理发展,为视觉大模型的慢推理范式提供参考 [32][33]