OpenAI AI推理系统在IOI竞赛中的表现 - OpenAI的推理模型在2025年IOI线上竞赛中获得总分533.29分,在全球330名人类选手中排名第六,在所有AI参赛者中排名第一 [1] - 该AI系统超越了98%的人类参赛者,其中排名前五的人类选手中包括三名中国学生:刘恒熙(591.23分)、范斯喆(552.34分)和陈昕阳(534.42分) [1][2] - 值得注意的是,OpenAI并未专门为IOI训练新模型,而是整合了多个通用推理模型参赛 [2] 与去年表现的对比 - 相比2024年IOI竞赛中专门训练的o1-ioi模型仅获得213分(排名第49百分位),今年使用通用模型的成绩实现了显著提升 [4][13][14] - 2024年的o1-ioi模型采用了复杂的人工设计test-time推理策略,包括生成10000个候选解、基于自生成测试用例聚类排序等,但效果不佳 [14][15][17] 竞赛规则与AI参赛细节 - IOI是全球中学生计算机科学领域最高级别赛事,要求参赛者在5小时内独立解决3道高难度算法题,全程断网且无法借助外部资料 [8] - 2025年IOI共有来自84个国家的330名参赛者,满分600分,金牌分数线为438.30分,最终28人获金牌 [9] - OpenAI的AI系统遵守与人类相同的规则:5小时时间限制和50次提交次数限制,且未使用互联网或RAG技术 [10][11][12] 行业竞争与模型表现 - 马斯克发布的IOI Benchmark排名显示,Grok 4在编码方面以26.2%准确率超越GPT-5(20.0%)获得第一,但成本(3/15美元)和延迟(4265.88秒)较高 [6][7] - GPT-5在2025Q1测试中是唯一能解决难题分组(5.9%)的模型,其平均响应长度超过10万token,是o3的3倍 [18][19][20] - 其他主要模型表现:Gemini 2.5 Pro(17.1%)、Claude Opus 4.1(15.2%)、Claude Sonnet 4(6.5%) [7]
OpenAI夺金IOI,但输给3位中国高中生
量子位·2025-08-12 09:14