多模态大模型几何解题能力评估 核心观点 - 首个从几何原理视角评估多模态大模型几何解题能力的双语基准GeoSense发布,包含5层知识架构和1789道精细标注的几何问题 [1][6][7] - 创新性提出GPI(几何原理识别)和GPA(几何原理应用)指标,弥补传统评测仅关注答案正确性的不足 [11][12] - 评测显示Gemini-2.0-Pro-Flash综合表现最佳,开源模型中Qwen-VL系列领先 [25][28][29] 评测体系设计 - 知识架构:覆盖148个几何原理(65定义/47定理/36公式),分平面几何与立体几何5层级 [6] - 数据集:1789道双语问题标注5556个几何原理对应关系,23位专业人员参与质量把控 [7][9] - 评估指标: - GPI量化模型识别必要几何原理的能力(正确识别比例) [15][16] - GPA通过F1 score衡量原理与视觉元素的匹配应用 [18][20] - ACC保留传统答案正确性评分 [22] 模型表现分析 - 头部模型: - Gemini-2.0-Pro-Flash三项指标平均分65.3,公式类GPI达87.4 [26][28] - Qwen2.5-VL-72B开源最优(AVG 60.1),较7B版本提升17% [26][35] - 短板领域: - 平面几何理解普遍薄弱,如Claude3.5-Sonnet在TMPF原理的GPA仅32.5 [32] - 定义/定理类表现显著弱于公式类(如InternVL2.5-78B定义类ACC仅29.8) [46][48] - 规模效应:模型参数量与表现正相关(Qwen2.5-VL从7B到72B提升8.8分) [35] 关键发现 - 能力瓶颈:几何原理识别(GPI)是主要限制因素,GPI每提升5%可带动ACC提高7.7% [37][39] - 复杂问题挑战:所需原理数量增加时,闭源模型GPI下降更显著(如GPT-4o复杂问题ACC仅51.7) [41][42] - 计算优势:模型在公式类表现突出(Gemini-2.0公式类GPI 87.4 vs 定义类64.2) [26][47]
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品