闹玩呢！首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

比赛概况 - 谷歌发起首届大模型国际象棋对抗赛，旨在探索LLM在动态竞争环境中的表现[3][6] - 参赛模型包括Gemini 2 5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2[10] - 第一轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0战绩晋级半决赛[4] 模型表现分析 - Grok 4：以全胜战绩表现最佳，展现精准捕捉无保护棋子能力，突破LLM三大短板（全局棋盘视觉化不足、棋子互动理解有限、合法着法执行问题）[30][33][36] - o4-mini：对阵DeepSeek R1时出现开局高质量但后续断崖式下跌现象，但实现两次将军[18][21][22] - Gemini 2 5 Pro：唯一通过将杀获胜多于违规的模型，第四局虽拥有32分子力优势仍出现送子[23][24] - o3：对阵Kimi k2时因对方连续四次无合法着法获胜，Kimi k2在脱离开局理论后技术问题显著[7][8][9] 技术短板与观察 - LLM普遍存在棋盘状态识别混乱问题，如Kimi k2能识别局势但无法执行合法着法[13][14] - 部分模型（如Claude 4 Opus）在稳定对局后突发草率决策（如10...g5送兵破坏王城安全）[27] - 赛前投票显示37 64%参与者最看好Gemini 2 5 Pro，但实际表现与预期存在差异[37][38] 赛事影响 - Grok 4表现引发科技界关注，创始人马斯克重申"国际象棋太过简单"观点[33] - 比赛结果揭示LLM在复杂策略游戏中的能力边界，半决赛表现将验证模型稳定性[36]