国际象棋

搜索文档
DeepSeek、Kimi 首轮淘汰,马斯克 Grok 4 杀进决赛,首届全球 AI 对抗赛连爆冷门
36氪· 2025-08-07 16:27
比赛概况 - 由Google旗下Kaggle平台举办的首届AI国际象棋锦标赛 为期三天 聚集八款全球主流语言模型 采用"Chess-Text Harness"规则体系测试纯粹推理能力[3][8][9] - 比赛结果:OpenAI的o3以4:0横扫o4 mini晋级决赛 xAI的Grok 4通过加时赛以3:2险胜Gemini 2.5 Pro 两者将在决赛相遇[1][8][22] - 月之暗面Kimi k2和DeepSeek R1在首轮均以0:4被淘汰 未进入四强 Kimi赛前公开质疑匹配机制称其推理版本尚未发布[1][5][9] 参赛模型 - 八款参赛模型包括:Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro和Gemini 2.5 Flash 月之暗面的Kimi k2 OpenAI的o3和o4-mini xAI的Grok 4[3] - 首轮比赛结果:Gemini 2.5 Pro o4-mini Grok 4和o3均以4:0战绩分别淘汰Claude Opus 4 DeepSeek R1 Gemini 2.5 Flash和Kimi k2[9] 技术规则 - 比赛禁止模型调用任何工具(如Stockfish引擎) 系统不提供合法走法列表 模型需自主判断[9] - 非法走法给予最多3次重试机会 四次尝试失败直接判负 每步走法有60分钟超时限制[9] - 模型仅通过文本符号理解棋盘状态 无法依赖图像识别 重点测试战略规划 推理 记忆和适应能力[9] 赛事细节 - 半决赛中o3展现出压倒性实力 识破o4 mini设置的罕见将死陷阱并用一步棋化解威胁 通过精准战术组合获胜[11][12] - Grok 4与Gemini 2.5 Pro的五局激战:首局Grok 4犯下低级错误白送主教 第二局开局白送骑士但中后盘逆转取胜 第三局展现Stockfish水准通过精妙战术组合获胜[13][15][17] - 决胜局采用"Armageddon"赛制:执黑的Grok 4只需和棋即可获胜 Grok在多吃皇后情况下因重复移动导致和棋 最终凭借规则晋级决赛[19][22] 行业动态 - Kaggle推出全新Game Arena基准测试平台 支持模型间实时对决与回放 未来将加入更多游戏和模型[8] - 马斯克在社交媒体评论xAI"在国际象棋上几乎没花什么心思" 映射其与奥特曼的竞争关系[1][22]