IMO金牌模型

搜索文档
OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
创业邦· 2025-08-12 11:33
OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克(IOI)中取得金牌级别成绩,在AI参赛者中排名第一 [2] - 公司模型得分533.29,在所有参赛选手中排名第6,仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则,包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型,未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI,未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术,仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现,公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳,不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩,显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断,期待公司推出采用相同技术的公开版本 [18]
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
36氪· 2025-08-01 20:06
这一次,"不会"竟成了大模型的高光时刻。 虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了"高智商的诚实"。 正如OpenAI研究员Noam Brown在最新访谈中所揭示的: 当IMO推理模型会在缺乏有效证据时表示"我不确定",这会显著减少隐藏错误。 在AI摘下IMO金牌后,OpenAI金牌小分队成员Alex Wei、Sheryl Hsu和Noam Brown参与了红杉资本组织的一场对话,揭秘模型攻克精英数学难题的底层 突破。 有网友帮忙总结了个太长不看版: 与过去那些"看起来完美,实则错误"的幻觉式答案不同,这一代大模型开始学会"承认自己不会"。 它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有"自我认意识"的全新阶段。 三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。 IMO金牌模型能承认自己不知道 尽管数学家与计算机科学家一致认可IMO金牌模型的价值。 但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。 他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。 IMO第6题让大模型全军覆没,当然,OpenAI也对其进行了大量计算。 有一个由2025 ...
AI答IMO难题坦承“不会”,OpenAI:这就是自我意识
量子位· 2025-08-01 17:05
当IMO推理模型会在缺乏有效证据时表示"我不确定",这会显著减少隐藏错误。 在AI摘下IMO金牌后,OpenAI金牌小分队成员 Alex Wei 、 Sheryl Hsu 和 Noam Brown 参与了红杉资本组织的一场对话,揭秘模型攻 克精英数学难题的底层突破。 时令 发自 凹非寺 量子位 | 公众号 QbitAI 这一次,"不会"竟成了大模型的高光时刻。 虽然在IMO第6题上得了零分,OpenAI的金牌模型却展现了"高智商的诚实"。 正如OpenAI研究员 Noam Brown 在最新访谈中所揭示的: 有网友帮忙总结了个太长不看版: 与过去那些"看起来完美,实则错误"的幻觉式答案不同,这一代大模型开始学会"承认自己不会"。 它标志着模型正在从胡编乱造的幻觉式回答,转向更加可靠且具有"自我认意识"的全新阶段。 三位成员还在这场对话中,分享了更多关于冲刺IMO的有趣细节。 IMO金牌模型能承认自己不知道 尽管数学家与计算机科学家一致认可IMO金牌模型的价值。 但他们常常抱怨,当模型遇到知识盲区时,它总会输出一个令人信服但错误的答案。 他们不得不耗费大量精力逐行验算,才能甄别那些幻觉陷阱。 IMO第6题让大模 ...