Workflow
刚刚,OpenAI内部推理模型斩获IOI 2025金牌,所有AI选手中第一
36氪·2025-08-12 11:51

OpenAI内部推理模型的竞赛表现 - OpenAI内部推理模型在国际信息学奥林匹克竞赛中获得金牌,总排名第6位,在AI参赛模型中排名第1位 [1][7] - 该模型在330名参赛选手中位列第6,前5名均为人类选手 [8][11] - 模型沿用此前获得国际数学奥林匹克竞赛金牌的相同版本,未针对IOI进行专门训练 [5][12] - 竞赛设置与人类选手相同的条件:5小时时间限制、最多50次提交次数、无联网支持 [1][11][12] 模型技术特点与进展 - 该推理系统仅能访问基本终端工具,未使用联网功能或RAG搜索技术 [12] - 相比去年IOI比赛成绩仅略低于铜牌分数线,今年排名从第49百分位跃升至第98百分位 [12] - OpenAI评估发现该IMO金牌模型在编程等多个领域均为当前最佳模型 [5] - 模型采用"草莓"作为代表形象,这一形象可能进化为OpenAI内部推理系统的官方代表 [2] 商业模型对比表现 - 主流商业模型在IOI竞赛中表现较差,准确率最高仅为26.2% [15][16] - Grok 4以26.2%准确率领先商业模型,其次是GPT-5(20.0%)、Gemini 2.5 Pro(17.1%)和Claude Opus 4.1(15.2%)[16][17] - 测试发现只有每道问题成本超过2美元的昂贵模型才能取得有意义的表现 [17][18] - OpenAI内部推理模型性能远超公众可接触的商业模型 [20] 行业竞争格局分析 - AI巨头热衷于权威竞赛排名,将其作为直接有效的营销手段 [24] - 竞赛排名与模型的通用性能和应用潜力高度相关,代表技术优势 [24] - 排名领先有助于提升品牌形象、吸引公众关注和增强用户信任 [24] - 行业高度竞争性和技术快速迭代驱动企业持续参与竞赛较量 [24][27] - 竞赛胜出能够显著提高对人才和资本的吸引力 [24]