Multimodal Mathematical Reasoning

搜索文档
小学数学题,大模型集体不及格!达摩院推出新基准VCBench
量子位· 2025-05-22 22:29
大模型数学能力评估 - 人类在小学数学题测试中平均得分93.30%,显著优于所有AI模型 [1][17] - 闭源模型Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表现最佳但未突破50%准确率 [1][17] - 开源模型整体表现低于闭源模型且参差不齐,可能与架构差异、多模态整合程度或训练数据质量有关 [17] VCBench基准特点 - 专为评估具备显式视觉依赖性的多模态数学推理任务设计,面向小学1-6年级数学问题 [4][5] - 强调vision-centric而非knowledge-centric,与儿童学习路径相符 [8][9][10] - 平均每个问题包含3.9张图像,显著高于现有基准,要求模型整合多图视觉线索 [12] 模型能力差异分析 - 大模型在逻辑推理类问题表现较好,但空间几何表现差,显示视觉和几何感知严重不足 [17] - 单图场景下模型表现平均比多图提升42.3%,Emu2-Chat单图性能飙升281.5% [22] - 思维链(CoT)对多步逻辑推理任务提升显著(Qwen-VL-Max在reasoning任务提升40%),但对感知型任务效果有限 [24] 错误类型分布 - 视觉感知错误占比最高(超50%),Gemini2-Flash达62%,是当前多模态模型主要瓶颈 [27][29] - 计算错误率4-7%,上下文误解错误率3-6%,Gemini2-Flash(3%)和Claude(4%)表现最佳 [27] - Claude逻辑错误率最高(33%),GPT-4o答案整合错误率最高(23%) [27][29]