OpenAI IMO金牌团队爆料：AI拒绝作答第六题

项目团队与开发背景 - 核心团队仅由三人组成：项目负责人 Alexander Wei、研究工程师 Sheryl Hsu 和高级研究科学家 Noam Brown，其中 Sheryl Hsu 于今年 3 月入职 [3][10] - 项目实际开发周期仅两三个月，基于前期约六个月的强化学习算法酝酿 [9][5] - 技术方案初期曾受质疑，但通过处理「难以验证任务」的显著进步获得支持 [10] 模型能力与表现 - 模型在 IMO 中获金牌，标志其数学能力及处理复杂任务的通用技术提升 [6] - 生成的数学证明风格独特但「糟糕」，团队未优化人类可读性，原始证明公开于 GitHub [11] - 面对最难题（如第六题）时选择「不作答」，体现对能力边界的清晰认知，避免「幻觉」错误 [12] 技术挑战与未来方向 - 解决「千禧年大奖难题」仍遥远，当前能力仅覆盖 IMO 级别（1.5 小时/题）与研究级数学（1500 小时/题）的差距 [13] - 长时思考（如 1500 小时）的评估效率成瓶颈，需突破研究迭代速度限制 [15] - 优先发展通用推理能力，未采用形式化工具 Lean，因自然语言方法更适配现实问题 [17] 基础设施与扩展应用 - 项目基于与其他 OpenAI 产品相同的通用基础设施，无定制化开发 [18] - 多智能体系统用于扩展并行计算，相关技术已计划应用于其他系统以提升推理能力 [16] 行业意义与潜在应用 - 物理奥赛题难度高于数学，因涉及实验部分需机器人技术支持 [20] - 未来或向数学家开放工具，已有案例显示模型能识别自身能力局限 [21] - 提出新颖问题（如创造 IMO 级别新题）被视为 AI 下一阶段关键挑战 [19]