Workflow
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
量子位·2025-03-25 08:59

西风 发自 凹非寺 量子位 | 公众号 QbitAI 就在DeepSeek-V3更新的同一夜,阿里通义千问Qwen又双叒叕一次梦幻联动了—— 发布 Qwen2.5-VL-32B-Instruct 。 此前开源家族视觉语言模型Qwen2.5-VL包括3B、7B和72B三种尺寸。 这一次的32B版本进一步兼顾尺寸和性能,可在本地运行。 同时经过强化学习优化,在三个方面改进显著: 对比近期开源的Mistral-Small-3.1-24B 、Gemma-3-27B-IT等, Qwen2.5-VL-32B在纯文本能力上也达到了同规模的SOTA表现。在多个基 准上,Qwen2.5-VL-32B甚至超过了72B。 举个栗子,比如根据一张交通指示牌照片,Qwen2.5-VL-32B就能做如下精细的图像理解和推理: 我正在这条路上驾驶一辆大卡车,现在12点了。我能在13点之前到达110公里远的地方吗? Qwen2.5-VL-32B首先对时间、距离、卡车限速进行分析,然后分步骤条理清晰推算出正确答案: 回答更符合人类偏好; 拥有更强的数学推理能力; 在图像解析、内容识别以及视觉逻辑推导等任务中,表现出更强的准确性和细粒度分析能力 ...