刚刚，OpenAI内部推理模型斩获IOI 2025金牌，所有AI选手中第一

OpenAI内部推理模型的竞赛表现 - OpenAI内部推理模型在国际信息学奥林匹克竞赛中获得金牌，总排名第6位，在AI参赛模型中排名第1位 [1][7] - 该模型在330名参赛选手中位列第6，前5名均为人类选手 [8][11] - 模型沿用此前获得国际数学奥林匹克竞赛金牌的相同版本，未针对IOI进行专门训练 [5][12] - 竞赛设置与人类选手相同的条件：5小时时间限制、最多50次提交次数、无联网支持 [1][11][12] 模型技术特点与进展 - 该推理系统仅能访问基本终端工具，未使用联网功能或RAG搜索技术 [12] - 相比去年IOI比赛成绩仅略低于铜牌分数线，今年排名从第49百分位跃升至第98百分位 [12] - OpenAI评估发现该IMO金牌模型在编程等多个领域均为当前最佳模型 [5] - 模型采用"草莓"作为代表形象，这一形象可能进化为OpenAI内部推理系统的官方代表 [2] 商业模型对比表现 - 主流商业模型在IOI竞赛中表现较差，准确率最高仅为26.2% [15][16] - Grok 4以26.2%准确率领先商业模型，其次是GPT-5（20.0%）、Gemini 2.5 Pro（17.1%）和Claude Opus 4.1（15.2%）[16][17] - 测试发现只有每道问题成本超过2美元的昂贵模型才能取得有意义的表现 [17][18] - OpenAI内部推理模型性能远超公众可接触的商业模型 [20] 行业竞争格局分析 - AI巨头热衷于权威竞赛排名，将其作为直接有效的营销手段 [24] - 竞赛排名与模型的通用性能和应用潜力高度相关，代表技术优势 [24] - 排名领先有助于提升品牌形象、吸引公众关注和增强用户信任 [24] - 行业高度竞争性和技术快速迭代驱动企业持续参与竞赛较量 [24][27] - 竞赛胜出能够显著提高对人才和资本的吸引力 [24]