几何原理识别和应用

搜索文档
Gemini-2.0夺冠!全球首个几何推理专项评测出炉,淘天集团出品
量子位· 2025-04-28 11:43
多模态大模型几何解题能力评估 核心观点 - 首个从几何原理视角评估多模态大模型几何解题能力的双语基准GeoSense发布,包含5层知识架构和1789道精细标注的几何问题 [1][6][7] - 创新性提出GPI(几何原理识别)和GPA(几何原理应用)指标,弥补传统评测仅关注答案正确性的不足 [11][12] - 评测显示Gemini-2.0-Pro-Flash综合表现最佳,开源模型中Qwen-VL系列领先 [25][28][29] 评测体系设计 - **知识架构**:覆盖148个几何原理(65定义/47定理/36公式),分平面几何与立体几何5层级 [6] - **数据集**:1789道双语问题标注5556个几何原理对应关系,23位专业人员参与质量把控 [7][9] - **评估指标**: - GPI量化模型识别必要几何原理的能力(正确识别比例) [15][16] - GPA通过F1 score衡量原理与视觉元素的匹配应用 [18][20] - ACC保留传统答案正确性评分 [22] 模型表现分析 - **头部模型**: - Gemini-2.0-Pro-Flash三项指标平均分65.3,公式类GPI达87.4 [26][28] - Qwen2.5-VL-72B开源最优(AVG 60.1),较7B版本提升17% [26][35] - **短板领域**: - 平面几何理解普遍薄弱,如Claude3.5-Sonnet在TMPF原理的GPA仅32.5 [32] - 定义/定理类表现显著弱于公式类(如InternVL2.5-78B定义类ACC仅29.8) [46][48] - **规模效应**:模型参数量与表现正相关(Qwen2.5-VL从7B到72B提升8.8分) [35] 关键发现 - **能力瓶颈**:几何原理识别(GPI)是主要限制因素,GPI每提升5%可带动ACC提高7.7% [37][39] - **复杂问题挑战**:所需原理数量增加时,闭源模型GPI下降更显著(如GPT-4o复杂问题ACC仅51.7) [41][42] - **计算优势**:模型在公式类表现突出(Gemini-2.0公式类GPI 87.4 vs 定义类64.2) [26][47]