大模型IMO25数学竞赛成绩公布了

大模型数学能力评估结果 - Gemini 2.5 Pro以超30%的总成绩断崖式领先超出第二名89% [1] - o3和o4-mini分别位列第二、三名 Grok 4得分仅11.9且成本比Gemini高22% [2] - 测试采用统一提示词模板与Open Proof Corpus评估标准最大Token限制64000 [5][6] 评估方法与流程 - 每个模型生成32个初始回答筛选自评最优的四个答案取平均分作为最终成绩 [7][8] - 四名IMO级别人类评委匿名双评每题满分7分评分界面统一 [10][11] - 模型普遍在7分制下得3-4分与人类表现差异显著 [12] 题目类型与模型表现 - 六道题目涵盖解析几何、平面几何、数论、博弈论和组合数学 [16][18][22][24][25] - 平面几何题(第2题)全员低分 Grok 4仅得4%(0.28分) [26][27] - 组合数学题(第6题)全员零分几何与图形相关题目表现最差 [26][28] - 第四题模型方法接近人类但存在逻辑失误第五题能识别策略但无法证明 [29] 模型能力演进观察 - 相比早期评估模型过度优化答案格式的行为显著减少 [13] - Gemini在USAMO中编造定理的问题在IMO测试中大幅改善 [14] - Grok 4多数未选中答案仅陈述结果而无解释表现低于预期 [14]