Workflow
强指数时间假设
icon
搜索文档
GPT-5惨遭零分打脸,顶级AI全军覆没,奥特曼AI博士级能力神话破灭
36氪· 2025-09-16 08:39
顶级大模型在AAI提出的FormulaOne基准集体翻车:三层难度递进,GPT-5进阶题仅约4%正确,最深层零分;Grok 4、o3 Pro全部失手。该基准以图上 MSO逻辑与动态规划生成问题,贴近路径规划等现实优化,旨在衡量超越竞赛编程的算法推理深度。 这事儿,真的靠谱吗? 奥特曼在GPT-5的发布会上曾说过一个结论。 「以后每个人的兜里都有一个博士级AI随时随地的提供建议」。 这不,一个叫FormulaOne的硬核测试,就让世界上这些最顶级的模型「现了原形」。 FormulaOne题目分三关,一关比一关难。 GPT-5的发布后也被全球的疯狂实测,API使用量暴增。 当然,有些讨论重点关注的是「还我GPT-4o」这种情绪化的能力方面。 但重点是,奥特曼一直强调,GPT-5有「博士级」推理能力。 就算是GPT-5,也只做对了4%。其他模型更是惨不忍睹。 至于最难的「最深层问题」部分?所有模型,全军覆没。直接交了白卷,全部零分。 FormulaOne测试基准给自己取名字叫做:超越竞赛编程的算法推理深度测量。 论文地址:https://arxiv.org/pdf/2507.13337 结果呢?有点扎心了。 基础题 ...