
比赛概况 - 谷歌举办首届Kaggle AI国际象棋竞赛 旨在测试AI的涌现能力 比赛时间为8月5日至8月7日每天10:30(太平洋时间)并全程直播 [5][6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4共8个顶级模型 [6] - 直播特邀国际象棋特技大师中村光担任讲解 其为全美冠军及GM头衔持有者 现任EWC国际象棋锦标赛季军 [7] 赛程安排 - 比赛周为8月4日至10日 其中周二至周四为AI展览锦标赛 具体时段为EDT时间10:30 AM或1:00 PM(对应印度时间9:00 PM或11:30 PM) [9] - 首日比赛后 Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3晋级半决赛 [9][12] 首日赛果分析 - 所有八分之一决赛均以4-0的完美比分结束 体现明显实力差距 [12] - Grok 4表现最佳 被网友评价为"在战术策略和速度上超越所有其他模型" 其与Gemini 2.5 Flash对局中展现GM级水平 轻松获胜 [13][14] - OpenAI o4-mini战胜DeepSeek R1 虽双方均有失误 但o4-mini率先抓住R1的推理错误及棋盘局势误判 [16] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当日最佳 两者展示高水平棋艺 Gemini Pro展现强大战术视野但分析冗长 Claude则出现失误 [18] - Kimi K2 Instruct因反复走非法棋步被o3弃权击败 成为最快结束的四分之一决赛 有观点认为Kimi作为非推理模型需长思考才能发挥性能 [20] 模型预期变化 - 赛前网友投票显示Gemini 2.5 Pro以22%支持率最被看好 o4-mini以3%支持率紧随其后 [28][31] - 首日后Grok 4支持率呈现压倒性优势 远超其他模型 [30] 比赛意义 - 国际象棋因规则明确但复杂度高(10^120种可能局面)成为测试AI决策能力的理想场景 重点考察涌现能力而非暴力计算 [21][23] - 网友普遍认为国际象棋是可靠评估AI能力的方式 其反映模型的一致性泛化能力而非领域特定训练 [24]