Workflow
先别急着给OpenAI加冕!陶哲轩:这种「金牌」,含金量取决于「赛制」
机器之心·2025-07-20 11:11

OpenAI模型在IMO竞赛中的表现 - OpenAI宣布其推理模型在国际数学奥林匹克(IMO)竞赛中获得金牌水平表现 该模型在2025年IMO六道题目中解决了五道 获得35分(满分42分)的成绩 [2][6] - 测试严格按照人类选手规则进行 模型需在两个4.5小时的考试环节中独立完成 无任何工具或网络辅助 [3] - 该成绩显著优于其他AI模型 Gemini 2 5 Pro得分13分 OpenAI的o3(high)仅得7分 [10] 模型技术特点 - 模型能够生成多页数学证明 在"难以验证"领域进行超过一小时推理并给出正确答案 [27][28] - 推理研究主管Noam Brown表示 仍有很大空间提升测试时的计算能力和效率 [33] - 该模型并非即将发布的GPT-5 面世时间可能还需等待数月 [34] 行业专家观点 - 数学家陶哲轩呼吁谨慎看待AI模型IMO成绩 强调需要严格控制测试条件才能进行有意义比较 [11][14] - 陶哲轩指出AI能力差距可达几个数量级 取决于资源投入和结果汇报方式 [15] - 网友讨论认为 即使存在争议 AI能写出多页数学证明本身已值得关注 [20][27] 研究人员背景 - 项目负责人Alexander Wei专注提升LLM推理能力 特别在数学推理和自然语言证明生成领域 [37] - 曾获国际信息学奥林匹克(IOI)金牌 加州大学伯克利分校计算机科学博士 [37][38] - 在Meta AI期间参与开发达到人类顶尖水平的《外交》游戏AI系统CICERO [40]