谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

比赛概述 - 一场为期3天的AI国际象棋比赛将于太平洋时间8月5日至7日举行，旨在通过实战检验前沿AI模型的真实性能[2] - 比赛基于谷歌推出的Kaggle Game Arena平台，这是一个公开的AI基准测试平台，支持策略游戏对战[6] - 组织方邀请了世界顶级国际象棋专家担任解说，并开源了游戏执行框架和环境以确保透明度[6][8] 参赛模型 - 共有8款前沿AI模型参赛，包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro/Flash、Anthropic的Claude Opus 4以及xAI的Grok 4[7] - 参赛模型均为行业顶流，包含两款中国开源模型，且对战双方性能旗鼓相当[5] 比赛机制 - 采用单败淘汰制，每场对决包含4局比赛，先获2分者晋级（胜局1分，平局0.5分），若2-2平局则加赛决胜[14] - 模型不得使用外部工具（如Stockfish引擎），且不会被告知合法走法列表[17] - 每步棋有60分钟超时限制，非法走法最多可重试3次，否则判负[17] 赛程安排 - 8月5日：8款模型进行4场初赛（每场4局）[17] - 8月6日：晋级的4款模型进行2场半决赛[17] - 8月7日：决赛日进行冠军争夺战[17] 平台意义 - 谷歌指出当前AI基准测试已难以跟上模型发展速度，Game Arena旨在通过动态对战提供更有效的性能评估[12] - 平台支持实时查看对阵表、动态排行榜及开源代码，未来将引入更多游戏以推动AI能力快速提升[8][12]