看好了,这才是7家大模型做高考数学题的真实分数。
数字生命卡兹克·2025-06-09 06:05
AI数学能力测试 - 测试目的是公平客观评估大模型的纯数学能力,采用2025年数学全国一卷,剔除解答题和图表题,所有题目转换为LaTeX文本格式输入[1] - 测试规则严格:单选题7道每题5分,多选题3道每题6分(漏选扣分),填空题3道每题5分,每道题运行3次按正确率计分,关闭联网和代码执行功能[3][5] - 参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包1.5-thinking-pro、混元T1、千问3(235B)、讯飞星火X1等7个主流推理模型[5] 测试结果分析 - Gemini 2.5 Pro表现最佳,总分68分中无任何错误,尤其在第九多选题上唯一全对[7][10] - 豆包、混元、星火组成第二梯队,仅第九题漏选一个选项[10] - DeepSeek R1因第11题多余回答导致扣0.7分,排名第五;千问3和OpenAI o3因填空题错误垫底[7][10] - 测试发现当前大模型数学能力已显著提升,与2023年相比差距明显,主要错误源于输入格式而非推理能力[10] 测试方法论价值 - 采用LaTeX格式避免OCR识别误差,确保测试的是数学能力而非图像识别能力[1] - 多次运行取平均分的设计有效减少模型幻觉影响[3] - 该测试方法为AI能力评估提供了标准化范例,强调技术中立和流程严谨的重要性[10]