Workflow
Kimi k2
icon
搜索文档
DeepSeek、Kimi 首轮淘汰,马斯克 Grok 4 杀进决赛,首届全球 AI 对抗赛连爆冷门
36氪· 2025-08-07 16:27
比赛概况 - 由Google旗下Kaggle平台举办的首届AI国际象棋锦标赛 为期三天 聚集八款全球主流语言模型 采用"Chess-Text Harness"规则体系测试纯粹推理能力[3][8][9] - 比赛结果:OpenAI的o3以4:0横扫o4 mini晋级决赛 xAI的Grok 4通过加时赛以3:2险胜Gemini 2.5 Pro 两者将在决赛相遇[1][8][22] - 月之暗面Kimi k2和DeepSeek R1在首轮均以0:4被淘汰 未进入四强 Kimi赛前公开质疑匹配机制称其推理版本尚未发布[1][5][9] 参赛模型 - 八款参赛模型包括:Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro和Gemini 2.5 Flash 月之暗面的Kimi k2 OpenAI的o3和o4-mini xAI的Grok 4[3] - 首轮比赛结果:Gemini 2.5 Pro o4-mini Grok 4和o3均以4:0战绩分别淘汰Claude Opus 4 DeepSeek R1 Gemini 2.5 Flash和Kimi k2[9] 技术规则 - 比赛禁止模型调用任何工具(如Stockfish引擎) 系统不提供合法走法列表 模型需自主判断[9] - 非法走法给予最多3次重试机会 四次尝试失败直接判负 每步走法有60分钟超时限制[9] - 模型仅通过文本符号理解棋盘状态 无法依赖图像识别 重点测试战略规划 推理 记忆和适应能力[9] 赛事细节 - 半决赛中o3展现出压倒性实力 识破o4 mini设置的罕见将死陷阱并用一步棋化解威胁 通过精准战术组合获胜[11][12] - Grok 4与Gemini 2.5 Pro的五局激战:首局Grok 4犯下低级错误白送主教 第二局开局白送骑士但中后盘逆转取胜 第三局展现Stockfish水准通过精妙战术组合获胜[13][15][17] - 决胜局采用"Armageddon"赛制:执黑的Grok 4只需和棋即可获胜 Grok在多吃皇后情况下因重复移动导致和棋 最终凭借规则晋级决赛[19][22] 行业动态 - Kaggle推出全新Game Arena基准测试平台 支持模型间实时对决与回放 未来将加入更多游戏和模型[8] - 马斯克在社交媒体评论xAI"在国际象棋上几乎没花什么心思" 映射其与奥特曼的竞争关系[1][22]
首届大模型象棋争霸赛:Grok 4与o3挺进决赛,DeepSeek、Kimi落败
36氪· 2025-08-07 14:16
比赛概述 - Google旗下Kaggle平台主办的"棋局竞技场"AI国际象棋表演赛半决赛中,Grok 4和o3分别击败Gemini 2.5 Pro和o4-mini,晋级决赛 [1] - 比赛为期三天,参赛者为八个大型语言模型(LLM),包括Grok 4(xAI)、Gemini 2.5 Pro(谷歌)、o4-mini(OpenAI)、o3(OpenAI)、Claude 4 Opus(Anthropic)、Gemini 2.5 Flash(谷歌)、DeepSeek R1(DeepSeek)和Kimi k2(月之暗面)[1] - 比赛采用单败淘汰制,规则聚焦AI对棋局的理解力与问题解决能力,不比算力 [1] 首日比赛结果 - 首日四场比赛均以"4-0"比分结束,Gemini 2.5 Pro、o4-mini、Grok 4和o3晋级半决赛 [3][11] - Gemini 2.5 Pro以4-0完胜Claude 4 Opus,展现稳健的棋盘掌控力 [12] - o4-mini以4-0击败DeepSeek R1,DeepSeek R1因连续失误落败 [14] - Grok 4以4-0击败Gemini 2.5 Flash,表现引发xAI创始人埃隆·马斯克在X平台上的热议 [19] - o3以4-0战胜Kimi k2,Kimi k2因连续四次无法作出合法移动而连输四局 [22] 半决赛表现 - 半决赛中,Grok 4与Gemini 2.5 Pro的对决以2-2平局进入加赛,Grok 4最终因平局胜权晋级 [8] - o3以4-0完胜其轻量版o4-mini,展现压倒性优势,并在第三局中走出两招妙棋 [5] - Chess.com指出此次赛事暴露出AI模型整体缺乏语境理解,难以执行基本战术序列等问题 [22] 决赛预告 - 决赛将于美国东部时间8月7日13时(北京时间8月8日1时)举行,由xAI的Grok 4对阵OpenAI的o3 [22] - Gemini 2.5 Pro与o4-mini将争夺三、四名 [22]
闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
机器之心· 2025-08-06 12:31
比赛概况 - 谷歌发起首届大模型国际象棋对抗赛,旨在探索LLM在动态竞争环境中的表现[3][6] - 参赛模型包括Gemini 2 5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2[10] - 第一轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0战绩晋级半决赛[4] 模型表现分析 - **Grok 4**:以全胜战绩表现最佳,展现精准捕捉无保护棋子能力,突破LLM三大短板(全局棋盘视觉化不足、棋子互动理解有限、合法着法执行问题)[30][33][36] - **o4-mini**:对阵DeepSeek R1时出现开局高质量但后续断崖式下跌现象,但实现两次将军[18][21][22] - **Gemini 2 5 Pro**:唯一通过将杀获胜多于违规的模型,第四局虽拥有32分子力优势仍出现送子[23][24] - **o3**:对阵Kimi k2时因对方连续四次无合法着法获胜,Kimi k2在脱离开局理论后技术问题显著[7][8][9] 技术短板与观察 - LLM普遍存在棋盘状态识别混乱问题,如Kimi k2能识别局势但无法执行合法着法[13][14] - 部分模型(如Claude 4 Opus)在稳定对局后突发草率决策(如10...g5送兵破坏王城安全)[27] - 赛前投票显示37 64%参与者最看好Gemini 2 5 Pro,但实际表现与预期存在差异[37][38] 赛事影响 - Grok 4表现引发科技界关注,创始人马斯克重申"国际象棋太过简单"观点[33] - 比赛结果揭示LLM在复杂策略游戏中的能力边界,半决赛表现将验证模型稳定性[36]