5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

大模型高考表现 - 5款主流大模型参加2025年山东高考，文科最高分683分（豆包Seed 1.6-Thinking），理科最高分655分（Gemini 2.5 Pro）[3][4] - 文科成绩全线超620分，豆包683分达清华北大线，理科Gemini和豆包达985水平，Claude 4和o3未及600分[5] - 相比2024年高考测评，大模型文理科成绩一年内均提升100多分，从"踩一本线"跃升至"冲刺清北"[6][37] 技术测评方法论 - 测试采用全科闭卷形式，主科用全国Ⅰ卷，副科为山东自主命题，总分750分制[4] - 通过API测试，选择题机判+人工质检，开放题由重点高中教师匿名评估，全程未做prompting engineering[5] - 输入方式差异：DeepSeek R1仅用题目文本，其他模型使用文本+截图[5][31] 学科能力分析语文 - 豆包128分夺冠，Gemini 126分，o3因作文跑题仅95分[11] - 大模型在选择题/阅读理解得分率高，名句默写全员满分，但作文表现参差不齐（Gemini 52分 vs o3 20分）[13][14] - 写作问题包括缺乏深度思辨（DeepSeek）、格式不规范（豆包1800字超限，o3非标准格式）[15][16] 数学 - DeepSeek R1以145分领先，豆包141分，Gemini 140分，较2024年普遍不及格实现飞跃[17] - 主要失分点：图像混合题（新一卷第6题全员失分）、压轴题推导不严谨[20][22] - 解答过程存在随机性，相同题目不同模型得分差异明显[18] 英语 - 全员超140分，差距极小，主要扣分点在写作[23] - 作文分两档：豆包/Gemini/Claude 4达12分（结构清晰案例充实），o3/DeepSeek 11分（语言瑕疵或句式单一）[29] 文科综合 - 豆包文综270分断层领先，地理94分+历史92分双突破90[30] - 优势领域：地理空间关系理解、历史因果链把握，DeepSeek因模型故障历史仅67分[30][32] 理科综合 - Gemini理综248分第一，豆包235分，Claude 4落后37分[33] - 生物化学读图题受图片清晰度限制，豆包在图文交织输入下可提升30分至676分[34] - 物理题存在超纲解答现象，因未限制解题方法[35] 技术演进关键 - Gemini 2.5 Pro通过思维链提升数理推理，支持多模态复杂问题处理[38] - OpenAI o3整合图像思维链，实现原生图像处理与分步思考[38] - 豆包Seed 1.6采用三阶段训练（文本预训练/多模态混合/长上下文），结合256K上下文与视觉理解优化[39][40] - Seed1.6-Thinking通过RFT+RL迭代优化，融合VLM提升视觉理解能力[41] 行业趋势 - 大模型从"能否解题"转向"理解深层逻辑"，在文本生成、多模态、推理层面实现质变[43] - 标准化考试逐渐失去挑战性，未来或转向科研/艺术/编程等无标准答案领域[44] - 技术迭代速度超预期：一年内从"普通本科"水平跃升至"双一流"级别[43]