OpenAI的o3 high

搜索文档
高考出分!大模型“考生”,有望冲击“清北”!
证券时报· 2025-06-26 14:32
豆包大模型高考表现 - 豆包大模型1.6-Thinking版本在2025年山东高考测评中取得文科总分683分、理科总分648分的成绩,其中语文128分、数学147分、英语144分,物理90分、化学100分、生物76分,地理94分、历史92分、政治84分 [1][3] - 该成绩超过山东特殊类型招生控制线521分和普通类一段线441分,预估赋分后最高可超690分,排名前80位,达到冲击清华北大的水平 [1][6] - 在文科总分排名中位列第一,领先谷歌Gemini 2.5 Pro的651分;理科总分以7分之差位列第二 [5] 大模型横向对比 - 参与对比的模型包括OpenAI o3 high(文科625分/理科579分)、谷歌Gemini 2.5 Pro(文科651分/理科655分)、Anthropic Claude Sonnet 4(文科633分/理科598分)和DeepSeek R1-0528(文科631分/理科615分) [2][3] - 所有测试模型成绩均大幅超过普通类一段线,显示大模型已达到人类优秀考生水平 [2] - DeepSeek R1因缺乏多模态能力无法正常解答占比36%的图像类问题,但仍通过文本推理获得部分分数 [5] 技术突破 - 豆包1.6系列模型采用230B总参数的稀疏MoE架构,支持256K长上下文深度推理和多模态理解 [8] - 通过纯文本预训练、多模态混合持续训练和长上下文持续训练三阶段优化,在参数量不变情况下实现性能显著提升 [8] - 新增"动态思考能力"实现多模态融合思考的效果平衡,在复杂推理、竞赛级数学等测试中跻身全球前列 [8] 行业应用与市场 - 2024年中国AI大模型市场规模约294.16亿元,预计2026年突破700亿元,行业处于爆发式发展阶段 [10] - 豆包大模型已覆盖4亿终端设备,包括小米、OPPO等手机品牌,奔驰、宝马等八成主流车企,以及招商银行、华泰证券等70%系统重要性银行 [11] - 行业分析师认为AI大模型已具备算力高效利用、真实世界感知、自主学习和创作能力,正广泛渗透娱乐、电商、金融等垂直领域 [11] 评测意义 - 高考成为大模型重要测试场景,因其题目全面覆盖文理科和多模态内容,能有效反映模型泛化能力 [9] - 豆包大模型相比去年测评成绩进步显著,文科提高140.5分至683分,理科提高181.5分至648分 [10] - 评测采用山东"3+3"高考模式,开放题由重点高中教师匿名评估并经过多轮质检 [5]