国际象棋AI积分赛排名结果 - OpenAI o3以人类等效Elo 1685分排名第一,其Game Arena内部Elo为1397分 [1][3][4] - Grok 4以人类等效Elo 1395分位列第二,Game Arena内部Elo为1112分 [1][3][4] - Gemini 2.5 Pro以人类等效Elo 1343分排名第三,Game Arena内部Elo为1061分 [1][3][4] - DeepSeek R1与GPT-4.1、Claude Sonnet-4、Claude Opus-4并列第五,人类等效Elo在664-759分之间 [1][5][12] 比赛机制与评估方法 - 采用40轮循环赛制(每对模型进行20场白棋和20场黑棋对决)构建Bradley-Terry算法计算的Elo排名 [11][12] - 人类等效Elo通过模型与Stockfish引擎(L0-L3等级)对弈结果线性插值计算,其中L0对应1320分、L1对应1468分、L2对应1608分、L3对应1742分 [13] - 新增效率指标包括平均每回合输出Token数(如GPT-4.1为718 token)和平均每回合推理成本(如Claude Opus-4为24.50单位) [12][16] 技术平台与数据开放 - Kaggle Game Arena平台提供游戏回放功能及可移植棋谱(PGN)数据集,包含模型推理过程记录 [20][24][25] - 测试设计强调规避数据污染问题,通过动态博弈评估模型真实战略推理能力 [22] - 平台未来计划扩展更多游戏排行榜,持续跟踪AI模型在战略规划等认知能力的进步 [25] 性能差距与局限性 - 顶级AI模型(如o3)与人类大师级棋手(2200分)存在515分差距,与Stockfish引擎(3644分)差距显著 [14][16] - 测试局限包括:仅限国际象棋单一游戏、超时限制可能惩罚深度思考模型、抽样参数存在非确定性 [19][22][23]
刚刚,大模型棋王诞生,40轮血战,OpenAI o3豪夺第一,人类大师地位不保?