算法元定理 - 财报，业绩电话会，研报，新闻 - Reportify

算法元定理

搜索文档

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

机器之心· 2025-08-15 12:17

前沿AI模型推理能力评估 - 谷歌、OpenAI等前沿AI模型在数学奥林匹克(IMO)水平测试中达到金牌水准，但新基准FormulaOne测试中GPT-5、Claude 4 Opus、Gemini 2 5 Pro等顶级模型集体得零分[2][3] - FormulaOne包含220个图结构动态规划问题，分为浅层(100题)、深层(100题)、最深层(20题)三个难度等级，最深层级涉及拓扑与几何、组合问题分析等科研级难题[3][4] - 在浅层难度测试中顶尖模型成功率50%-70%，深层难度GPT-5 Pro表现最佳但仅解出4/100题，所有模型在最深层难度成功率均为0%[10][12] FormulaOne基准技术细节 - 测试问题基于Courcelle算法元定理，要求AI对图结构进行树分解并通过动态规划分步解决，涉及15个相互依赖的推理步骤[6][7][8] - 解决方案需要设计能总结"袋"内信息的"状态"，并精确定义顶点引入、遗忘及"袋"合并时的状态转换规则[7] - 社交媒体关注焦点在于未公布人类博士生在该基准上的表现数据，引发对AI与人类专家推理能力对比的讨论[9] AAI公司背景 - 由Mobileye创始人Amnon Shashua于2023年8月在耶路撒冷创立，专注"人工专家智能"(AEI)研发，已获数千万美元投资[14][16][19] - AEI技术路径强调领域知识与科学推理结合，目标突破传统AI在专业精度或泛化能力上的单一局限[18][19] - 入选AWS 2024生成式AI加速器项目，获得100万美元计算资源支持基础设施建设[19]

Artificial Expert Intelligence

一元二阶逻辑

算法元定理

Artificial Intelligence

Artificial Expert Intelligence

一元二阶逻辑

算法元定理

Artificial Intelligence