Workflow
OpenAI推理模型
icon
搜索文档
OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
创业邦· 2025-08-12 11:33
OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克(IOI)中取得金牌级别成绩,在AI参赛者中排名第一 [2] - 公司模型得分533.29,在所有参赛选手中排名第6,仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则,包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型,未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI,未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术,仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现,公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳,不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩,显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断,期待公司推出采用相同技术的公开版本 [18]
OpenAI夺金IOI,但输给3位中国高中生
量子位· 2025-08-12 09:14
OpenAI AI推理系统在IOI竞赛中的表现 - OpenAI的推理模型在2025年IOI线上竞赛中获得总分533.29分,在全球330名人类选手中排名第六,在所有AI参赛者中排名第一 [1] - 该AI系统超越了98%的人类参赛者,其中排名前五的人类选手中包括三名中国学生:刘恒熙(591.23分)、范斯喆(552.34分)和陈昕阳(534.42分) [1][2] - 值得注意的是,OpenAI并未专门为IOI训练新模型,而是整合了多个通用推理模型参赛 [2] 与去年表现的对比 - 相比2024年IOI竞赛中专门训练的o1-ioi模型仅获得213分(排名第49百分位),今年使用通用模型的成绩实现了显著提升 [4][13][14] - 2024年的o1-ioi模型采用了复杂的人工设计test-time推理策略,包括生成10000个候选解、基于自生成测试用例聚类排序等,但效果不佳 [14][15][17] 竞赛规则与AI参赛细节 - IOI是全球中学生计算机科学领域最高级别赛事,要求参赛者在5小时内独立解决3道高难度算法题,全程断网且无法借助外部资料 [8] - 2025年IOI共有来自84个国家的330名参赛者,满分600分,金牌分数线为438.30分,最终28人获金牌 [9] - OpenAI的AI系统遵守与人类相同的规则:5小时时间限制和50次提交次数限制,且未使用互联网或RAG技术 [10][11][12] 行业竞争与模型表现 - 马斯克发布的IOI Benchmark排名显示,Grok 4在编码方面以26.2%准确率超越GPT-5(20.0%)获得第一,但成本(3/15美元)和延迟(4265.88秒)较高 [6][7] - GPT-5在2025Q1测试中是唯一能解决难题分组(5.9%)的模型,其平均响应长度超过10万token,是o3的3倍 [18][19][20] - 其他主要模型表现:Gemini 2.5 Pro(17.1%)、Claude Opus 4.1(15.2%)、Claude Sonnet 4(6.5%) [7]
刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
机器之心· 2025-08-12 08:15
OpenAI在IOI 2025的表现 - OpenAI的推理模型在2025年国际信息学奥林匹克(IOI)中取得金牌级别的高分,在AI参赛者中排名第一 [1] - 在330位人类参赛者中,OpenAI的得分仅落后于5位人类选手,排名第6 [5] - 公司遵守了与人类选手相同的比赛规则:5小时答题时间和50次提交限制 [5] 技术细节 - OpenAI没有使用互联网或检索增强生成(RAG),仅能访问基础的终端工具 [6] - 公司使用了一组通用推理模型,没有针对IOI进行专门训练 [7] - 唯一的辅助策略是选择要提交的解答并与IOI API建立连接 [7] 成绩进步 - 相比去年IOI的表现,OpenAI今年实现了巨大飞跃 [8] - 成绩从去年的第49百分位跃升至第98百分位 [9] - 过去几周在AtCoder世界总决赛、IMO和IOI上都取得优异成绩 [9] 模型特点 - 直接使用IMO金牌模型参加IOI竞赛,未做任何改动 [14] - 在采样的所有模型中,IMO金牌模型表现最佳 [14] - 模型展示了强大的通用推理能力,未经过专门训练就取得优异成绩 [15] 行业影响 - 公司在IMO和IOI的连续成功展示了最新研究方法的巨大进步 [9] - 网友期待OpenAI推出采用相同技术的公开版本 [17] - 联合创始人Greg Brockman盛赞模型"金牌级的表现" [13]
先别急着给OpenAI加冕!陶哲轩:这种「金牌」,含金量取决于「赛制」
机器之心· 2025-07-20 11:11
OpenAI模型在IMO竞赛中的表现 - OpenAI宣布其推理模型在国际数学奥林匹克(IMO)竞赛中获得金牌水平表现 该模型在2025年IMO六道题目中解决了五道 获得35分(满分42分)的成绩 [2][6] - 测试严格按照人类选手规则进行 模型需在两个4.5小时的考试环节中独立完成 无任何工具或网络辅助 [3] - 该成绩显著优于其他AI模型 Gemini 2 5 Pro得分13分 OpenAI的o3(high)仅得7分 [10] 模型技术特点 - 模型能够生成多页数学证明 在"难以验证"领域进行超过一小时推理并给出正确答案 [27][28] - 推理研究主管Noam Brown表示 仍有很大空间提升测试时的计算能力和效率 [33] - 该模型并非即将发布的GPT-5 面世时间可能还需等待数月 [34] 行业专家观点 - 数学家陶哲轩呼吁谨慎看待AI模型IMO成绩 强调需要严格控制测试条件才能进行有意义比较 [11][14] - 陶哲轩指出AI能力差距可达几个数量级 取决于资源投入和结果汇报方式 [15] - 网友讨论认为 即使存在争议 AI能写出多页数学证明本身已值得关注 [20][27] 研究人员背景 - 项目负责人Alexander Wei专注提升LLM推理能力 特别在数学推理和自然语言证明生成领域 [37] - 曾获国际信息学奥林匹克(IOI)金牌 加州大学伯克利分校计算机科学博士 [37][38] - 在Meta AI期间参与开发达到人类顶尖水平的《外交》游戏AI系统CICERO [40]