高考数学全卷重赛！一道题难倒所有大模型，新选手Gemini夺冠，豆包DeepSeek并列第二

大模型高考数学测评结果核心观点 - 7家大模型参与2025年新课标Ⅰ卷数学测试（14道客观题73分+5道解答题77分），Gemini 2.5 Pro以总分145分排名第一，Doubao和DeepSeek R1以144分并列第二 [9] - 多模态大模型在图像题（第6题）上全军覆没，非图像类客观题表现接近（最高分差仅3分） [7][20] - 解答题成为主要失分区，仅Gemini 2.5 Pro获满分77分，其他模型因推理步骤不严谨、计算错误等共性问题扣分 [8][11] 客观题表现 - 除第6题外，Doubao、Qwen3、Gemini 2.5 Pro等6款模型均获68分（满分73分），o3因多选题漏选一项得65分 [20][21] - 第6题（图像题）测试中，所有多模态模型均失败，其中Doubao和o3识别了坐标但误判风速方向，Gemini 2.5 Pro连基本坐标都未识别 [24][25] - o3在第9题忽视"正三棱柱"关键条件导致坐标系建立错误，影响选项判断 [21] 解答题表现 - 第15题（概率）和第17题（立体几何）所有模型均满分，展现基础题型处理能力 [11] - 第16题（数列）仅Qwen3因答案冗余假设扣1分，其他模型满分 [12] - 第18题（椭圆几何）仅Gemini 2.5 Pro、Doubao、DeepSeek R1满分，Qwen3因多余约等于步骤扣1分，文心X1 Turbo因轨迹证明不全扣6分 [13][16] - 第19题（压轴题）仅Gemini 2.5 Pro全对，Doubao因震荡项相位论证不严谨扣1分，DeepSeek R1因未完整讨论解的分类扣1分 [17] 模型能力短板 - 多模态图像理解能力不足，所有参测模型均无法正确处理含图像的数学题 [27] - 复杂推理存在缺陷，如文心X1 Turbo在极值证明和比大小计算上连续出错 [18] - 严谨性待提升，Qwen3在正确答案中混入冗余内容导致扣分 [12]