Workflow
高考数学
icon
搜索文档
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3竟惨败垫底
机器之心· 2025-06-08 06:35
大模型高考数学测试表现 - 字节豆包与腾讯元宝以68分并列第一,正确率93% [6][8] - 深度求索DeepSeek和阿里通义分别以63分、62分紧随其后,正确率86%和85% [8] - 百度文心X1 Turbo得分51分(正确率70%),OpenAI o3表现最差仅34分(正确率47%)[10][11] 题目类型分析 单选题(8题/40分) - 豆包、通义、元宝、文心均得35分,DeepSeek得30分,o3仅20分且错4题 [16][17] - o3在基础题出现逻辑混乱,如第2题未给出答案,第5题计算错误 [17] - DeepSeek因OCR识别问题导致第6题无法作答 [22][23] 多选题(3题/18分) - 豆包、DeepSeek、元宝全部满分,通义错1题得12分 [29][31] - 文心X1错2题(含1题未响应),o3未全对且存在单选式作答 [31][33] - 通义因步骤简略导致第11题误选AD,而正确答案为ABC [32] 填空题(3题/15分) - 豆包、DeepSeek、通义、元包均满分,文心X1因第13题取值错误得10分 [34][36] - o3第13题仅答-2、第14题以小数2.44替代分数61/25,共得10分 [36] 技术进展与现存问题 进步 - 国产模型均超及格线(43.8分),较去年显著提升,豆包/元宝正确率达93% [40] - 增加反思能力,如DeepSeek会验证步骤(耗时达15分钟/题) [40] - 推理步骤更完善,多数模型展示完整逻辑链路(除通义外) [41] 问题 - 计算细节错误频发,如符号误判、公式套用错误 [43] - 图形与几何直觉处理不足,如DeepSeek无法识别图表信息 [23][43] - 对题目条件敏感度低,多选题易漏选/误选 [43]
“考场出来沉默了”,高考数学爆上热搜
21世纪经济报道· 2025-06-07 22:42
6月7日下午,今年全国高考数学科目考试结束后,数学相关的话题就上了热搜。 细把握学情教情,科学调控试题难度,精确区分考生,提升人才选拔质量,助力教育强国建 设。 深化高考内容改革, 加强基础性考查 基本概念和基本原理是构成数学学科知识体系的基石和框架,2025年高考数学命题突出基础 性考查,全面检验学生的学科基础,引导教学回归课标,夯实学生知识根基,培育学生发展潜 能。 有考生表示,"一卷难到想笑""考场出来都沉默了"。 高考数学全国卷难不难?权威解析 2025年教育部教育考试院共命制全国一卷、全国二卷两套高考数学试卷。 据央视新闻,关于高考数学全国卷试题,专家认为,2025年高考数学命题贯彻落实教育强国 建设规划纲要,遵循高校人才选拔要求和高中数学课程标准,依据高考评价体系,持续推进考 试内容改革。更新设计理念,深化基础性考查;创新试题设计,强化思维能力考查,拓展思维 的深度和广度,增强探索性和创新性,突出思维过程和思维品质,服务拔尖创新人才选拔;精 "改变相对固化的试题形式,增强试题开放性"是《深化新时代教育评价改革总体方案》对高考 命题提出的明确要求。2025年全国高考数学继续优化试卷结构,进行了新的探 ...
“考场出来沉默了”,高考数学爆上热搜
券商中国· 2025-06-07 19:24
6月7日下午,今年全国高考数学科目考试结束后,数学相关的话题就上了热搜。 有考生表示,"一卷难到想笑""考场出来都沉默了"。 2025年教育部教育考试院共命制全国一卷、全国二卷两套高考数学试卷。 关于高考数学全国卷试题,专家认为,2025年高考数学命题贯彻落实教育强国建设规划纲要,遵循高校人才选 拔要求和高中数学课程标准,依据高考评价体系,持续推进考试内容改革。更新设计理念,深化基础性考查; 创新试题设计,强化思维能力考查,拓展思维的深度和广度,增强探索性和创新性,突出思维过程和思维品 质,服务拔尖创新人才选拔;精细把握学情教情,科学调控试题难度,精确区分考生,提升人才选拔质量,助 力教育强国建设。 深化高考内容改革, 2025年高考数学命题创新情境设计、内容设计和设问设计,破除套路,深入考查学科素养,发挥选拔功能,引 导中学教学从总结解题技巧转变到培养学生数学思维。全国一卷第19题突破以往以幂指对函数为情境设置函数 导数试题的模式,以三角函数设置情境,新颖独特;试题突出数学问题本质,考查创新思维,体现学科价值, 突出探究性、创新性的要求。全国二卷第19题设置了乒乓球练习的情境,引入了一族事件,并研究其概率之 ...