强指数时间假设 - 财报，业绩电话会，研报，新闻

强指数时间假设

搜索文档

36氪· 2025-09-16 08:39

FormulaOne基准测试结果 - 顶级大模型在FormulaOne基准测试中表现不佳 GPT-5在基础题正确率接近50% 在进阶题正确率仅4% 在最深层问题正确率为0 [1][6] - 其他模型包括o3 Pro、Claude 4 Opus、Neo、Gemini 2.5 Pro和Grok 4在进阶题和最深层问题正确率均为0或接近0 [1][6][19] - FormulaOne基准包含220个基于图的动态编程问题分为浅层100题、更深100题和最深层20题三个难度等级 [15][16] FormulaOne基准特点 - 基准测试由AAI公司开发专注于图上MSO逻辑与动态规划生成问题旨在衡量超越竞赛编程的算法推理深度 [1][8][15] - 问题具有商业价值与实际大规模优化问题相关如路径规划、调度和网络设计 [17] - 基准测试生成自高度表达的单子二阶逻辑框架为大规模自动问题生成铺平道路适合构建强化学习环境 [18] - 许多问题与理论计算机科学前沿及核心猜想密切相关如强指数时间假设 [18] 模型表现分析 - 模型在最深层问题出现概念崩溃需要非常深入的推理能力现有模型无法达到 [18][25] - 问题描述简洁但解决需要创造力和深入推理涉及拓扑和几何洞察、数学知识、组合考虑等 [16][19] - 与竞赛编程不同现实世界问题涉及多个不确定步骤没有简单捷径需要正确且高效的动态程序设计 [25][26] - 模型倾向于过早做出不可逆决策状态设计需要足够丰富又保持计算可行性这是主要挑战 [27] AAI公司背景 - AAI由Mobileye联合创始人Amnon Shashua教授发起 2023年8月在耶路撒冷成立长期处于半隐身状态 [10] - Shashua教授2020年获丹·大卫奖人工智能领域奖项 2022年被汽车名人堂评为移动创新者 [11] - 曾联合创立Mobileye 公司2014年完成以色列史上最大IPO 2017年被Intel以153亿美元收购 2022年再次纳斯达克上市 [12] 基准测试意义 - 现有基准测试无法完整描绘人工智能理解深度竞赛编程技能不能涵盖解决现实世界研究问题所需的全部推理能力 [15] - 解决全球供应链优化、大规模电网管理、弹性网络基础设施设计等任务比竞赛编程困难多个数量级 [15] - FormulaOne通过实时排行榜和评估框架与社区分享可能需要定性不同的方法突破现有局限 [18][30]

算法推理深度

动态规划

强指数时间假设

Artificial Intelligence

Artificial Intelligence

GPT-5

o3-Pro