Workflow
闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
机器之心·2025-08-06 12:31

比赛概况 - 谷歌发起首届大模型国际象棋对抗赛,旨在探索LLM在动态竞争环境中的表现[3][6] - 参赛模型包括Gemini 2 5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2[10] - 第一轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0战绩晋级半决赛[4] 模型表现分析 - Grok 4:以全胜战绩表现最佳,展现精准捕捉无保护棋子能力,突破LLM三大短板(全局棋盘视觉化不足、棋子互动理解有限、合法着法执行问题)[30][33][36] - o4-mini:对阵DeepSeek R1时出现开局高质量但后续断崖式下跌现象,但实现两次将军[18][21][22] - Gemini 2 5 Pro:唯一通过将杀获胜多于违规的模型,第四局虽拥有32分子力优势仍出现送子[23][24] - o3:对阵Kimi k2时因对方连续四次无合法着法获胜,Kimi k2在脱离开局理论后技术问题显著[7][8][9] 技术短板与观察 - LLM普遍存在棋盘状态识别混乱问题,如Kimi k2能识别局势但无法执行合法着法[13][14] - 部分模型(如Claude 4 Opus)在稳定对局后突发草率决策(如10...g5送兵破坏王城安全)[27] - 赛前投票显示37 64%参与者最看好Gemini 2 5 Pro,但实际表现与预期存在差异[37][38] 赛事影响 - Grok 4表现引发科技界关注,创始人马斯克重申"国际象棋太过简单"观点[33] - 比赛结果揭示LLM在复杂策略游戏中的能力边界,半决赛表现将验证模型稳定性[36]