看好了，这才是7家大模型做高考数学题的真实分数。

AI数学能力测试 - 测试目的是公平客观评估大模型的纯数学能力，采用2025年数学全国一卷，剔除解答题和图表题，所有题目转换为LaTeX文本格式输入[1] - 测试规则严格：单选题7道每题5分，多选题3道每题6分（漏选扣分），填空题3道每题5分，每道题运行3次按正确率计分，关闭联网和代码执行功能[3][5] - 参与测试的模型包括OpenAI o3、Gemini 2.5 Pro、DeepSeek R1、豆包1.5-thinking-pro、混元T1、千问3（235B）、讯飞星火X1等7个主流推理模型[5] 测试结果分析 - Gemini 2.5 Pro表现最佳，总分68分中无任何错误，尤其在第九多选题上唯一全对[7][10] - 豆包、混元、星火组成第二梯队，仅第九题漏选一个选项[10] - DeepSeek R1因第11题多余回答导致扣0.7分，排名第五；千问3和OpenAI o3因填空题错误垫底[7][10] - 测试发现当前大模型数学能力已显著提升，与2023年相比差距明显，主要错误源于输入格式而非推理能力[10] 测试方法论价值 - 采用LaTeX格式避免OCR识别误差，确保测试的是数学能力而非图像识别能力[1] - 多次运行取平均分的设计有效减少模型幻觉影响[3] - 该测试方法为AI能力评估提供了标准化范例，强调技术中立和流程严谨的重要性[10]