OpenAI推理模型 - 财报，业绩电话会，研报，新闻

OpenAI推理模型

搜索文档

创业邦· 2025-08-12 11:33

OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克（IOI）中取得金牌级别成绩，在AI参赛者中排名第一 [2] - 公司模型得分533.29，在所有参赛选手中排名第6，仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则，包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型，未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI，未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术，仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现，公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳，不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩，显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断，期待公司推出采用相同技术的公开版本 [18]

Artificial Intelligence

Artificial Intelligence

OpenAI推理模型

OpenAI夺金IOI，但输给3位中国高中生

量子位· 2025-08-12 09:14

OpenAI AI推理系统在IOI竞赛中的表现 - OpenAI的推理模型在2025年IOI线上竞赛中获得总分533.29分，在全球330名人类选手中排名第六，在所有AI参赛者中排名第一 [1] - 该AI系统超越了98%的人类参赛者，其中排名前五的人类选手中包括三名中国学生：刘恒熙(591.23分)、范斯喆(552.34分)和陈昕阳(534.42分) [1][2] - 值得注意的是，OpenAI并未专门为IOI训练新模型，而是整合了多个通用推理模型参赛 [2] 与去年表现的对比 - 相比2024年IOI竞赛中专门训练的o1-ioi模型仅获得213分(排名第49百分位)，今年使用通用模型的成绩实现了显著提升 [4][13][14] - 2024年的o1-ioi模型采用了复杂的人工设计test-time推理策略，包括生成10000个候选解、基于自生成测试用例聚类排序等，但效果不佳 [14][15][17] 竞赛规则与AI参赛细节 - IOI是全球中学生计算机科学领域最高级别赛事，要求参赛者在5小时内独立解决3道高难度算法题，全程断网且无法借助外部资料 [8] - 2025年IOI共有来自84个国家的330名参赛者，满分600分，金牌分数线为438.30分，最终28人获金牌 [9] - OpenAI的AI系统遵守与人类相同的规则：5小时时间限制和50次提交次数限制，且未使用互联网或RAG技术 [10][11][12] 行业竞争与模型表现 - 马斯克发布的IOI Benchmark排名显示，Grok 4在编码方面以26.2%准确率超越GPT-5(20.0%)获得第一，但成本(3/15美元)和延迟(4265.88秒)较高 [6][7] - GPT-5在2025Q1测试中是唯一能解决难题分组(5.9%)的模型，其平均响应长度超过10万token，是o3的3倍 [18][19][20] - 其他主要模型表现：Gemini 2.5 Pro(17.1%)、Claude Opus 4.1(15.2%)、Claude Sonnet 4(6.5%) [7]

人工智能

Artificial Intelligence

Artificial Intelligence

OpenAI推理模型

GPT - 5

Grok 4

刚刚，OpenAI拿下IOI金牌，仅次于前五名人类选手！参赛推理模型才夺得IMO金牌

机器之心· 2025-08-12 08:15

OpenAI在IOI 2025的表现 - OpenAI的推理模型在2025年国际信息学奥林匹克（IOI）中取得金牌级别的高分，在AI参赛者中排名第一 [1] - 在330位人类参赛者中，OpenAI的得分仅落后于5位人类选手，排名第6 [5] - 公司遵守了与人类选手相同的比赛规则：5小时答题时间和50次提交限制 [5] 技术细节 - OpenAI没有使用互联网或检索增强生成（RAG），仅能访问基础的终端工具 [6] - 公司使用了一组通用推理模型，没有针对IOI进行专门训练 [7] - 唯一的辅助策略是选择要提交的解答并与IOI API建立连接 [7] 成绩进步 - 相比去年IOI的表现，OpenAI今年实现了巨大飞跃 [8] - 成绩从去年的第49百分位跃升至第98百分位 [9] - 过去几周在AtCoder世界总决赛、IMO和IOI上都取得优异成绩 [9] 模型特点 - 直接使用IMO金牌模型参加IOI竞赛，未做任何改动 [14] - 在采样的所有模型中，IMO金牌模型表现最佳 [14] - 模型展示了强大的通用推理能力，未经过专门训练就取得优异成绩 [15] 行业影响 - 公司在IMO和IOI的连续成功展示了最新研究方法的巨大进步 [9] - 网友期待OpenAI推出采用相同技术的公开版本 [17] - 联合创始人Greg Brockman盛赞模型"金牌级的表现" [13]

通用推理能力

Artificial Intelligence

OpenAI推理模型

通用推理能力

Artificial Intelligence

OpenAI推理模型

先别急着给OpenAI加冕！陶哲轩：这种「金牌」，含金量取决于「赛制」

机器之心· 2025-07-20 11:11

OpenAI模型在IMO竞赛中的表现 - OpenAI宣布其推理模型在国际数学奥林匹克(IMO)竞赛中获得金牌水平表现该模型在2025年IMO六道题目中解决了五道获得35分(满分42分)的成绩 [2][6] - 测试严格按照人类选手规则进行模型需在两个4.5小时的考试环节中独立完成无任何工具或网络辅助 [3] - 该成绩显著优于其他AI模型 Gemini 2 5 Pro得分13分 OpenAI的o3(high)仅得7分 [10] 模型技术特点 - 模型能够生成多页数学证明在"难以验证"领域进行超过一小时推理并给出正确答案 [27][28] - 推理研究主管Noam Brown表示仍有很大空间提升测试时的计算能力和效率 [33] - 该模型并非即将发布的GPT-5 面世时间可能还需等待数月 [34] 行业专家观点 - 数学家陶哲轩呼吁谨慎看待AI模型IMO成绩强调需要严格控制测试条件才能进行有意义比较 [11][14] - 陶哲轩指出AI能力差距可达几个数量级取决于资源投入和结果汇报方式 [15] - 网友讨论认为即使存在争议 AI能写出多页数学证明本身已值得关注 [20][27] 研究人员背景 - 项目负责人Alexander Wei专注提升LLM推理能力特别在数学推理和自然语言证明生成领域 [37] - 曾获国际信息学奥林匹克(IOI)金牌加州大学伯克利分校计算机科学博士 [37][38] - 在Meta AI期间参与开发达到人类顶尖水平的《外交》游戏AI系统CICERO [40]

Artificial Intelligence

OpenAI推理模型

GPT - 5

CICERO

Artificial Intelligence

OpenAI推理模型

GPT - 5

CICERO