Workflow
智谱Z1
icon
搜索文档
我让10个大模型又参加了完整版数学高考,第一名居然是它。。。
数字生命卡兹克· 2025-06-10 05:20
大模型数学能力测试 核心观点 - 对多个大模型进行完整版数学高考测试(满分150分),结果显示讯飞星火和豆包以145分并列第一,Qwen3以143.3分位列第三,Gemini 2.5 pro、混元T1和文心x1分别以139.7分和137分位居第四、第五 [15][16][17][18] - 测试发现大模型在解答题表现优异(大部分正确),但单选题第6题成为所有模型的共同难点 [9] - 多模态大模型在涉及图片理解的题目中表现不佳,仅OpenAI o3在三次测试中答对两次 [10] 测试规则 - 补充测试智谱Z1、Kimi1.5、文心X1等模型,排除Claude 4 [3] - 大题按小问赋分,由高中教师估分并取严格标准(仅按结果正确性评分) [3][5] - 每道题运行模型3次,按正确比例给分 [5] - 文本题转换为LaTeX格式输入,图片题直接截图测试(无多模态能力的模型取其他多模态模型平均分) [6][7] 模型表现细节 - **讯飞星火/豆包**:除第6题外全对,展现超高稳定性 [15] - **Qwen3**:解答题全对但填空题因1次失误丢1.7分 [16] - **Gemini 2.5 pro**:解答题表现较弱,总分139.7分 [17] - **DeepSeek-R1-0528**:因推理链过长导致答案偏离,适合复杂度更高的题目 [11] 行业趋势观察 - 相比2023年测试时大模型"不识一二三四五"的窘境,当前模型已能达到优秀学生水平,体现AI技术快速迭代能力 [19][20][21] - 测试结果超出预期,反映头部模型在结构化问题解决上的显著进步 [9][15][21]