
大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛,参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2,晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行,旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼,不仅以4-0全胜,还展现出精准捕捉无保护棋子的能力,被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型,但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军,但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct,Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注,xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]