Workflow
算法元定理
icon
搜索文档
GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
机器之心· 2025-08-15 12:17
前沿AI模型推理能力评估 - 谷歌、OpenAI等前沿AI模型在数学奥林匹克(IMO)水平测试中达到金牌水准,但新基准FormulaOne测试中GPT-5、Claude 4 Opus、Gemini 2 5 Pro等顶级模型集体得零分[2][3] - FormulaOne包含220个图结构动态规划问题,分为浅层(100题)、深层(100题)、最深层(20题)三个难度等级,最深层级涉及拓扑与几何、组合问题分析等科研级难题[3][4] - 在浅层难度测试中顶尖模型成功率50%-70%,深层难度GPT-5 Pro表现最佳但仅解出4/100题,所有模型在最深层难度成功率均为0%[10][12] FormulaOne基准技术细节 - 测试问题基于Courcelle算法元定理,要求AI对图结构进行树分解并通过动态规划分步解决,涉及15个相互依赖的推理步骤[6][7][8] - 解决方案需要设计能总结"袋"内信息的"状态",并精确定义顶点引入、遗忘及"袋"合并时的状态转换规则[7] - 社交媒体关注焦点在于未公布人类博士生在该基准上的表现数据,引发对AI与人类专家推理能力对比的讨论[9] AAI公司背景 - 由Mobileye创始人Amnon Shashua于2023年8月在耶路撒冷创立,专注"人工专家智能"(AEI)研发,已获数千万美元投资[14][16][19] - AEI技术路径强调领域知识与科学推理结合,目标突破传统AI在专业精度或泛化能力上的单一局限[18][19] - 入选AWS 2024生成式AI加速器项目,获得100万美元计算资源支持基础设施建设[19]