Workflow
高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
机器之心·2025-06-11 01:56

大模型高考数学测评结果 核心观点 - 7家大模型参与2025年新课标Ⅰ卷数学测试(14道客观题73分+5道解答题77分),Gemini 2.5 Pro以总分145分排名第一,Doubao和DeepSeek R1以144分并列第二 [9] - 多模态大模型在图像题(第6题)上全军覆没,非图像类客观题表现接近(最高分差仅3分) [7][20] - 解答题成为主要失分区,仅Gemini 2.5 Pro获满分77分,其他模型因推理步骤不严谨、计算错误等共性问题扣分 [8][11] 客观题表现 - 除第6题外,Doubao、Qwen3、Gemini 2.5 Pro等6款模型均获68分(满分73分),o3因多选题漏选一项得65分 [20][21] - 第6题(图像题)测试中,所有多模态模型均失败,其中Doubao和o3识别了坐标但误判风速方向,Gemini 2.5 Pro连基本坐标都未识别 [24][25] - o3在第9题忽视"正三棱柱"关键条件导致坐标系建立错误,影响选项判断 [21] 解答题表现 - 第15题(概率)和第17题(立体几何)所有模型均满分,展现基础题型处理能力 [11] - 第16题(数列)仅Qwen3因答案冗余假设扣1分,其他模型满分 [12] - 第18题(椭圆几何)仅Gemini 2.5 Pro、Doubao、DeepSeek R1满分,Qwen3因多余约等于步骤扣1分,文心X1 Turbo因轨迹证明不全扣6分 [13][16] - 第19题(压轴题)仅Gemini 2.5 Pro全对,Doubao因震荡项相位论证不严谨扣1分,DeepSeek R1因未完整讨论解的分类扣1分 [17] 模型能力短板 - 多模态图像理解能力不足,所有参测模型均无法正确处理含图像的数学题 [27] - 复杂推理存在缺陷,如文心X1 Turbo在极值证明和比大小计算上连续出错 [18] - 严谨性待提升,Qwen3在正确答案中混入冗余内容导致扣分 [12]