6大模型决战高考数学新一卷：豆包、元宝并列第一，OpenAI o3竟惨败垫底

大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一，正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后，正确率86%和85% [8] - 百度文心X1 Turbo得分51分（正确率70%），OpenAI o3表现最差仅34分（正确率47%）[10][11] 题目类型分析单选题（8题/40分） - 豆包、通义、元宝、文心均得35分，DeepSeek得30分，o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱，如第2题未给出答案，第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题（3题/18分） - 豆包、DeepSeek、元宝全部满分，通义错1题得12分 [29][31] - 文心X1错2题（含1题未响应），o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD，而正确答案为ABC [32] 填空题（3题/15分） - 豆包、DeepSeek、通义、元包均满分，文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25，共得10分 [36] 技术进展与现存问题进步 - 国产模型均超及格线（43.8分），较去年显著提升，豆包/元宝正确率达93% [40] - 增加反思能力，如DeepSeek会验证步骤（耗时达15分钟/题） [40] - 推理步骤更完善，多数模型展示完整逻辑链路（除通义外） [41] 问题 - 计算细节错误频发，如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足，如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低，多选题易漏选/误选 [43]