千禧难题

搜索文档
内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌
36氪· 2025-08-12 08:57
技术突破与性能表现 - 在短短两个月内实现AI数学能力从小学数学水平跃升至国际数学奥林匹克竞赛(IMO)金牌水平 [1][4] - 推理时间从0.1分钟(6秒)扩展到100分钟(6000秒),实现10000倍计算扩展 [6][25] - 采用多智能体系统技术,通过多个AI助手分工协作解决复杂问题 [10] - 在GSM8K小学数学基准测试中,顶级模型准确率已达95%(Claude 3),但该数据集已饱和 [13] - 开源模型在各类数学测试中表现差异显著:Mathstral 7B在AIME 2024获得2/30分,而部分模型得分为0/30 [14] 方法论创新 - 使用通用强化学习技术而非形式化验证工具处理难以验证的任务 [6] - 通过扩展测试时间计算和并行计算实现深入推理 [6][25][26] - 设计特殊奖励函数使AI能处理物理奥林匹克等难以验证的难题 [26] - 每份证明由三名IMO奖牌获得者独立评分并达成一致性意见 [1] - 选择发布原始输出保持透明度,尽管证明可读性不高类似"外星语言" [1] 系统特性与可靠性 - 新模型展现出自我意识能力,在无法解答IMO第六题时主动承认局限而非输出错误答案 [8][18][19] - 显著减少推理模型"幻觉"问题,倾向于在缺乏有效证明时说"不确定" [19][20] - 该技术被视作通往人工超级智能(ASI)道路上的重要里程碑 [6] - 使用与其他项目相同的通用基础设施,未专门为IMO定制系统 [26][27] 团队与开发过程 - 核心团队仅由三名研究人员组成(Alexander Wei、Noam Brown与Sheryl Hsu) [1][4][8] - 在最后两个月冲刺完成工作,期间有研究员曾以2:1赔率打赌模型不会获胜 [1][8] - 计划将该方法整合进更多模型,全面提升推理能力并构建更强大的Agent系统 [27] 行业意义与应用前景 - 突破表明小团队也能创造重大成果,为AI开发者提供合作与创意范例 [8][29] - 通用技术可应用于数学、科学等多个领域解决未解难题 [6][26][29] - 从竞赛数学到真正数学研究存在巨大差距:IMO题需1.5小时,而千禧难题需要数千小时思考时间 [23] - 未来可能实现AI自主提出新问题,而不仅仅是解决问题 [28]