Workflow
5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
机器之心·2025-06-26 14:10

大模型高考表现 - 5款主流大模型参加2025年山东高考,文科最高分683分(豆包Seed 1.6-Thinking),理科最高分655分(Gemini 2.5 Pro)[3][4] - 文科成绩全线超620分,豆包683分达清华北大线,理科Gemini和豆包达985水平,Claude 4和o3未及600分[5] - 相比2024年高考测评,大模型文理科成绩一年内均提升100多分,从"踩一本线"跃升至"冲刺清北"[6][37] 技术测评方法论 - 测试采用全科闭卷形式,主科用全国Ⅰ卷,副科为山东自主命题,总分750分制[4] - 通过API测试,选择题机判+人工质检,开放题由重点高中教师匿名评估,全程未做prompting engineering[5] - 输入方式差异:DeepSeek R1仅用题目文本,其他模型使用文本+截图[5][31] 学科能力分析 语文 - 豆包128分夺冠,Gemini 126分,o3因作文跑题仅95分[11] - 大模型在选择题/阅读理解得分率高,名句默写全员满分,但作文表现参差不齐(Gemini 52分 vs o3 20分)[13][14] - 写作问题包括缺乏深度思辨(DeepSeek)、格式不规范(豆包1800字超限,o3非标准格式)[15][16] 数学 - DeepSeek R1以145分领先,豆包141分,Gemini 140分,较2024年普遍不及格实现飞跃[17] - 主要失分点:图像混合题(新一卷第6题全员失分)、压轴题推导不严谨[20][22] - 解答过程存在随机性,相同题目不同模型得分差异明显[18] 英语 - 全员超140分,差距极小,主要扣分点在写作[23] - 作文分两档:豆包/Gemini/Claude 4达12分(结构清晰案例充实),o3/DeepSeek 11分(语言瑕疵或句式单一)[29] 文科综合 - 豆包文综270分断层领先,地理94分+历史92分双突破90[30] - 优势领域:地理空间关系理解、历史因果链把握,DeepSeek因模型故障历史仅67分[30][32] 理科综合 - Gemini理综248分第一,豆包235分,Claude 4落后37分[33] - 生物化学读图题受图片清晰度限制,豆包在图文交织输入下可提升30分至676分[34] - 物理题存在超纲解答现象,因未限制解题方法[35] 技术演进关键 - Gemini 2.5 Pro通过思维链提升数理推理,支持多模态复杂问题处理[38] - OpenAI o3整合图像思维链,实现原生图像处理与分步思考[38] - 豆包Seed 1.6采用三阶段训练(文本预训练/多模态混合/长上下文),结合256K上下文与视觉理解优化[39][40] - Seed1.6-Thinking通过RFT+RL迭代优化,融合VLM提升视觉理解能力[41] 行业趋势 - 大模型从"能否解题"转向"理解深层逻辑",在文本生成、多模态、推理层面实现质变[43] - 标准化考试逐渐失去挑战性,未来或转向科研/艺术/编程等无标准答案领域[44] - 技术迭代速度超预期:一年内从"普通本科"水平跃升至"双一流"级别[43]