刚刚，大模型棋王诞生，40轮血战，OpenAI o3豪夺第一，人类大师地位不保？

国际象棋AI积分赛排名结果 - OpenAI o3以人类等效Elo 1685分排名第一，其Game Arena内部Elo为1397分 [1][3][4] - Grok 4以人类等效Elo 1395分位列第二，Game Arena内部Elo为1112分 [1][3][4] - Gemini 2.5 Pro以人类等效Elo 1343分排名第三，Game Arena内部Elo为1061分 [1][3][4] - DeepSeek R1与GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五，人类等效Elo在664-759分之间 [1][5][12] 比赛机制与评估方法 - 采用40轮循环赛制（每对模型进行20场白棋和20场黑棋对决）构建Bradley-Terry算法计算的Elo排名 [11][12] - 人类等效Elo通过模型与Stockfish引擎（L0-L3等级）对弈结果线性插值计算，其中L0对应1320分、L1对应1468分、L2对应1608分、L3对应1742分 [13] - 新增效率指标包括平均每回合输出Token数（如GPT-4.1为718 token）和平均每回合推理成本（如Claude Opus-4为24.50单位） [12][16] 技术平台与数据开放 - Kaggle Game Arena平台提供游戏回放功能及可移植棋谱（PGN）数据集，包含模型推理过程记录 [20][24][25] - 测试设计强调规避数据污染问题，通过动态博弈评估模型真实战略推理能力 [22] - 平台未来计划扩展更多游戏排行榜，持续跟踪AI模型在战略规划等认知能力的进步 [25] 性能差距与局限性 - 顶级AI模型（如o3）与人类大师级棋手（2200分）存在515分差距，与Stockfish引擎（3644分）差距显著 [14][16] - 测试局限包括：仅限国际象棋单一游戏、超时限制可能惩罚深度思考模型、抽样参数存在非确定性 [19][22][23]