通用推理能力

搜索文档
OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
创业邦· 2025-08-12 11:33
OpenAI在IOI 2025的表现 - 公司在2025年国际信息学奥林匹克(IOI)中取得金牌级别成绩,在AI参赛者中排名第一 [2] - 公司模型得分533.29,在所有参赛选手中排名第6,仅落后于5位人类选手 [7] - 公司遵守了与人类选手相同的比赛规则,包括5小时答题时间和50次提交限制 [6] 技术细节 - 公司使用了一组通用推理模型,未针对IOI进行专门训练 [8] - 公司直接使用IMO金牌模型参加IOI,未做任何改动 [14] - 模型在比赛中未使用互联网或RAG技术,仅能访问基础终端工具 [6] 性能提升 - 相比去年IOI表现,公司成绩从第49百分位跃升至第98百分位 [9] - 公司在过去几周连续在AtCoder世界总决赛、IMO和IOI取得优异成绩 [9] - IMO金牌模型在全面评测中表现最佳,不仅限于数学竞赛领域 [14] 行业影响 - 公司联合创始人Greg Brockman盛赞此次"金牌级表现" [13] - 行业人士认为未专门训练就取得优异成绩,显示通用推理能力显著提升 [16] - 行业对模型真身猜测不断,期待公司推出采用相同技术的公开版本 [18]
刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
机器之心· 2025-08-12 08:15
OpenAI在IOI 2025的表现 - OpenAI的推理模型在2025年国际信息学奥林匹克(IOI)中取得金牌级别的高分,在AI参赛者中排名第一 [1] - 在330位人类参赛者中,OpenAI的得分仅落后于5位人类选手,排名第6 [5] - 公司遵守了与人类选手相同的比赛规则:5小时答题时间和50次提交限制 [5] 技术细节 - OpenAI没有使用互联网或检索增强生成(RAG),仅能访问基础的终端工具 [6] - 公司使用了一组通用推理模型,没有针对IOI进行专门训练 [7] - 唯一的辅助策略是选择要提交的解答并与IOI API建立连接 [7] 成绩进步 - 相比去年IOI的表现,OpenAI今年实现了巨大飞跃 [8] - 成绩从去年的第49百分位跃升至第98百分位 [9] - 过去几周在AtCoder世界总决赛、IMO和IOI上都取得优异成绩 [9] 模型特点 - 直接使用IMO金牌模型参加IOI竞赛,未做任何改动 [14] - 在采样的所有模型中,IMO金牌模型表现最佳 [14] - 模型展示了强大的通用推理能力,未经过专门训练就取得优异成绩 [15] 行业影响 - 公司在IMO和IOI的连续成功展示了最新研究方法的巨大进步 [9] - 网友期待OpenAI推出采用相同技术的公开版本 [17] - 联合创始人Greg Brockman盛赞模型"金牌级的表现" [13]
OpenAI IMO金牌团队爆料:AI拒绝作答第六题
机器之心· 2025-08-03 12:21
项目团队与开发背景 - 核心团队仅由三人组成:项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown,其中 Sheryl Hsu 于今年 3 月入职 [3][10] - 项目实际开发周期仅两三个月,基于前期约六个月的强化学习算法酝酿 [9][5] - 技术方案初期曾受质疑,但通过处理「难以验证任务」的显著进步获得支持 [10] 模型能力与表现 - 模型在 IMO 中获金牌,标志其数学能力及处理复杂任务的通用技术提升 [6] - 生成的数学证明风格独特但「糟糕」,团队未优化人类可读性,原始证明公开于 GitHub [11] - 面对最难题(如第六题)时选择「不作答」,体现对能力边界的清晰认知,避免「幻觉」错误 [12] 技术挑战与未来方向 - 解决「千禧年大奖难题」仍遥远,当前能力仅覆盖 IMO 级别(1.5 小时/题)与研究级数学(1500 小时/题)的差距 [13] - 长时思考(如 1500 小时)的评估效率成瓶颈,需突破研究迭代速度限制 [15] - 优先发展通用推理能力,未采用形式化工具 Lean,因自然语言方法更适配现实问题 [17] 基础设施与扩展应用 - 项目基于与其他 OpenAI 产品相同的通用基础设施,无定制化开发 [18] - 多智能体系统用于扩展并行计算,相关技术已计划应用于其他系统以提升推理能力 [16] 行业意义与潜在应用 - 物理奥赛题难度高于数学,因涉及实验部分需机器人技术支持 [20] - 未来或向数学家开放工具,已有案例显示模型能识别自身能力局限 [21] - 提出新颖问题(如创造 IMO 级别新题)被视为 AI 下一阶段关键挑战 [19]