Workflow
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心·2025-06-08 06:35

大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]