o3 high

搜索文档
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:32
豆包大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分的成绩,其中语文128分、数学147分、英语144分,物理90分、化学100分、生物76分,地理94分、历史92分、政治84分 [1][3] - 该成绩超过山东特殊类型招生控制线521分和普通类一段线441分,预估赋分后最高可超690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中位列第一,领先谷歌Gemini 2.5 Pro的651分;理科总分以7分之差位列第二 [5] 大模型横向对比 - 参与对比的模型包括OpenAI o3 high(文科625分/理科579分)、谷歌Gemini 2.5 Pro(文科651分/理科655分)、Anthropic Claude Sonnet 4(文科633分/理科598分)和DeepSeek R1-0528(文科631分/理科615分) [2][3] - 所有测试模型成绩均大幅超过普通类一段线,显示大模型已达到人类优秀考生水平 [2] - DeepSeek R1因缺乏多模态能力无法正常解答占比36%的图像类问题,但仍通过文本推理获得部分分数 [5] 技术突破 - 豆包1.6系列模型采用230B总参数的稀疏MoE架构,支持256K长上下文深度推理和多模态理解 [8] - 通过纯文本预训练、多模态混合持续训练和长上下文持续训练三阶段优化,在参数量不变情况下实现性能显著提升 [8] - 新增"动态思考能力"实现多模态融合思考的效果平衡,在复杂推理、竞赛级数学等测试中跻身全球前列 [8] 行业应用与市场 - 2024年中国AI大模型市场规模约294.16亿元,预计2026年突破700亿元,行业处于爆发式发展阶段 [10] - 豆包大模型已覆盖4亿终端设备,包括小米、OPPO等手机品牌,奔驰、宝马等八成主流车企,以及招商银行、华泰证券等70%系统重要性银行 [11] - 行业分析师认为AI大模型已具备算力高效利用、真实世界感知、自主学习和创作能力,正广泛渗透娱乐、电商、金融等垂直领域 [11] 评测意义 - 高考成为大模型重要测试场景,因其题目全面覆盖文理科和多模态内容,能有效反映模型泛化能力 [9] - 豆包大模型相比去年测评成绩进步显著,文科提高140.5分至683分,理科提高181.5分至648分 [10] - 评测采用山东"3+3"高考模式,开放题由重点高中教师匿名评估并经过多轮质检 [5]
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:19
大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分,超过特殊类型招生控制线(521分)和普通类一段线(441分),预估赋分后最高可达690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中,豆包1.6-Thinking以683分位列第一,领先谷歌Gemini 2.5 Pro(651分)32分;理科总分Gemini 2.5 Pro以655分排名第一,豆包以648分位列第二 [6] - 基础学科表现优异:豆包语文128分、数学141分、英语144分,与其他主流模型(如Gemini数学140分、英语141分)差距较小,显示基础能力趋近人类优秀考生水平 [3][6] 多模态能力对比 - 山东高考试卷中图像类问题占比36%(378分),豆包凭借多模态能力优势显著,而DeepSeek R1因缺乏多模态支持无法正常解答图像题 [6] - 副科赋分优势明显:豆包物理90分、化学100分、地理94分,资深教师预估其赋分后成绩可提升至690分以上,尤其在化学等难度较高科目表现突出 [1][6] 技术迭代与行业应用 - 豆包1.6系列模型技术突破:采用230B总参数稀疏MoE架构,支持256K长上下文推理,新增动态思考能力和多模态融合,在复杂推理、数学竞赛等测试中跻身全球前列 [8] - 大模型产业价值显现:2024年中国AI大模型市场规模294.16亿元,预计2026年突破700亿元,豆包已覆盖4亿终端设备,渗透汽车、金融等八大行业,包括80%主流车企和70%系统重要性银行 [11][12] 高考作为AI评测场景 - 高考成为大模型核心竞技场:题目覆盖文理科全领域及多模态理解,能有效测试模型泛化能力,同时具备社会关注度,推动厂商积极参与测评 [10] - 豆包成绩年增幅显著:相比2024年测评,文科总分提升140.5分(542.5→683),理科提升181.5分(466.5→648),反映技术迭代速度 [11]