o3 Alpha

搜索文档
Altman 秀新模型“翻车”,谷歌补刀躺赢!OpenAI 前员工爆肝3天,编程再赢老东家模型!
AI前线· 2025-07-22 17:32
OpenAI新模型进展 - OpenAI近期测试多款未公开新模型 包括疑似GPT-5的o3-alpha-responses-2025-07-17模型和编程竞赛亚军模型OpenAIAHC [1][5][7][8][10] - o3 Alpha模型在Web开发测试中表现惊艳 仅上线5-6小时后下架 可能在未来几周正式发布 [5][7][8] - OpenAI CEO曾暗示公司内部有全球前50编程能力的模型 2025年底可能推出超人类级编程模型 [8] 国际数学奥林匹克竞赛表现 - OpenAI宣布实验性AI模型在IMO取得金牌成绩 达到前9%人类选手水平 在4.5小时限制下完成6道证明题 [2][3] - 谷歌DeepMind的Gemini Deep Think在IMO六题中答对五题 达到金牌水平 此前AlphaProof和AlphaGeometry 2仅获银牌 [2][4] - OpenAI因提前公布成绩和自行评分引发争议 被质疑违反IMO保密协议和评分标准 [3][4] 编程竞赛表现 - OpenAI的OpenAIAHC模型在AtCoder世界巡回赛总决赛中获得亚军 得分1,654,675,725,406 不敌人类冠军的1,812,272,588,909 [10][11][12] - 这是AI首次在顶级编程竞赛中进入前三名 展示出战略性推理和长期规划能力 [12][13] - 比赛采用10小时限时赛制 参赛者使用相同硬件 每次提交需间隔5分钟 [10] 行业动态 - 谷歌DeepMind CEO批评OpenAI过早公布IMO成绩 强调应尊重官方验证流程 [4] - 多家AI公司被IMO要求推迟至7月28日公布结果 但OpenAI提前宣布引发不满 [4] - 行业观察显示AI在编程和数学竞赛中进步显著 可能很快超越人类顶尖选手 [13]
“AI登月时刻”,OpenAI模型摘取奥数金牌
虎嗅· 2025-07-20 09:41
OpenAI在数学竞赛中的突破 - OpenAI的通用推理模型在2025年国际奥林匹克数学竞赛(IMO)中达到金牌水平,在禁用工具和互联网的条件下,以自然语言撰写证明,完整解出6题中的5题,最终得分35/42分[1] - 该模型是通用推理模型而非专门解数学题的系统,不依赖标准答案或实时打分的奖励信号,而是通过通用推理和新技术在长时间复杂过程中完成正确推理[1] - 模型由三位前IMO奖牌得主独立批改并取得一致意见后定分,证明其严谨性[1] OpenAI的技术领先地位 - OpenAI目前拥有最强的编程及数学模型,在AtCoder世界巡回赛2025决赛中仅次于人类编程奇才Psyho,测试表现优于o3 pro模型[2] - 该成就使OpenAI再次碾压DeepMind、Anthropic、Grok等竞争对手,并拉开与中国开源模型的差距[3] - OpenAI内部正在测试全新推理模型,奥数金牌成绩仅为小试牛刀,正式发布预计在GPT-5之后[4] 技术方法与意义 - 模型突破传统强化学习范式,不依赖狭窄的任务特化技巧,而是通过通用强化学习与"测试时计算"扩展的新技术实现[7] - 模型未针对IMO做专项训练,仅持续训练通用模型,所有证明均为自然语言撰写,未使用定制化评测框架[7] - 该模型在推理时间跨度和创造性思考上取得重大进展,从GSM8K(0.1分钟)到IMO(100分钟)逐步突破[5] 未来展望 - 从起步到奥数金牌水平仅用15个月,预计明年可用于数学定理生成和全新数学研究方法[11] - 市场预测人工智能在2030年前解决千禧年大奖难题的概率骤升至81%[12] - OpenAI科学家认为AI正接近在科学发现中发挥实质性作用的阶段,从略低于顶尖人类水平到略高于顶尖人类水平的差距巨大[28] GPT-5相关信息 - GPT-5即将发布,将采用实验性模型并融入未来模型采用的新研究技术[13] - GPT-5不会具备IMO金牌水平能力,但可能采用统一模型架构,用户可调整推理强度或智能等级[14][15] - GPT-5可能采用端到端强化学习(RL)进行训练,直接从原始输入学习最优策略,无需拆分子任务或设计中间模块[20] 行业影响 - OpenAI在经历Meta挖角后仍保持顶尖研究人才密度,此次突破向Meta展示其向超级人工智能跨越的决心[21] - 该成就由小团队完成,使用最近开发的新技术,对许多OpenAI研究人员也是惊喜,展示了前沿能力所在[29][30] - 不同于以往狭窄领域的AI系统,该模型具备更广泛的推理能力,远超竞赛题范围[10][24]