我让10个大模型又参加了完整版数学高考，第一名居然是它。。。

大模型数学能力测试核心观点 - 对多个大模型进行完整版数学高考测试（满分150分），结果显示讯飞星火和豆包以145分并列第一，Qwen3以143.3分位列第三，Gemini 2.5 pro、混元T1和文心x1分别以139.7分和137分位居第四、第五 [15][16][17][18] - 测试发现大模型在解答题表现优异（大部分正确），但单选题第6题成为所有模型的共同难点 [9] - 多模态大模型在涉及图片理解的题目中表现不佳，仅OpenAI o3在三次测试中答对两次 [10] 测试规则 - 补充测试智谱Z1、Kimi1.5、文心X1等模型，排除Claude 4 [3] - 大题按小问赋分，由高中教师估分并取严格标准（仅按结果正确性评分） [3][5] - 每道题运行模型3次，按正确比例给分 [5] - 文本题转换为LaTeX格式输入，图片题直接截图测试（无多模态能力的模型取其他多模态模型平均分） [6][7] 模型表现细节 - 讯飞星火/豆包：除第6题外全对，展现超高稳定性 [15] - Qwen3：解答题全对但填空题因1次失误丢1.7分 [16] - Gemini 2.5 pro：解答题表现较弱，总分139.7分 [17] - DeepSeek-R1-0528：因推理链过长导致答案偏离，适合复杂度更高的题目 [11] 行业趋势观察 - 相比2023年测试时大模型"不识一二三四五"的窘境，当前模型已能达到优秀学生水平，体现AI技术快速迭代能力 [19][20][21] - 测试结果超出预期，反映头部模型在结构化问题解决上的显著进步 [9][15][21]