Workflow
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
Seek .Seek .(US:SKLTY) 36氪·2025-08-07 14:16

8月7日消息,今日凌晨1点左右,在Google旗下Kaggle平台主办的"棋局竞技场"中,上演了一场AI国际象棋表演赛半决赛。最终,Grok 4 和o3分别击败Gemini 2.5 Pro和o4-mini,晋级决赛。 这场比赛为期三天,"参赛者"是八个大型语言模型(LLM):Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3 (OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌), 以及两位"中国选手"——DeepSeek R1(DeepSeek)和Kimi k2(月 之暗面)。 比赛采用单败淘汰制,每一回合,AI有最多4次尝试机会来下出一个合法的棋步。如果它在这4次尝试中都没能走出合法的一步棋,就被 判定为输掉这场比赛。规则不比算力,主要聚焦在AI对棋局的理解力与问题解决能力。 在首日的决赛中,Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2未能胜出,无缘半决赛。 半决赛:Grok 4、o3胜出 在8月5日的首日四场对决中,Gemini 2.5 Pro、o ...