Workflow
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
量子位·2025-08-06 16:14

比赛概况 - 首届Kaggle AI国际象棋竞赛由谷歌发起,旨在推广Kaggle游戏竞技场,首次比赛以国际象棋为主题[6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4[7] - 比赛于8月5日至8月7日每天10:30(太平洋时间)直播,并邀请国际象棋特技大师中村光作为讲解[8][10] 首日赛况 - Grok 4表现最佳,被网友评价为"在战术策略和速度上超越所有其他模型",其与Gemini 2.5 Flash的对决中以完美4-0获胜[16][17] - OpenAI的o4-mini击败DeepSeek R1,后者开局强劲但最终因失误落败[20][21] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当天最佳,双方展示高水平棋艺,但Claude出现失误而Gemini Pro分析冗长[23][24] - Kimi K2 Instruct表现最差,因反复走非法棋步被o3弃权击败[25] 半决赛对阵 - 挺入半决赛的模型为Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3[12] - 网友关注焦点为o4-mini与o3的"内斗",以及Gemini 2.5 Pro对战Grok 4[13] 模型能力评估 - 国际象棋因规则明确但复杂度高(10^120种可能局面),成为测试AI决策能力和涌现能力的理想场景[31][36] - 网友认为Grok 4的优异表现体现前沿AI的一致性泛化能力,而非传统领域特定训练模式[38] - 赛前Manifold投票显示Gemini 2.5 Pro最被看好,但首轮后Grok 4支持率呈压倒性优势(22% vs 未明确比例)[42][44] 行业动态 - 马斯克借Grok 4表现进行PR,称其优异表现是"副作用"而非刻意训练结果[4] - 量子位将于8月7日举办AI沙龙,邀请百度文心快码、智谱、Kimi等厂商讨论AI Coding重构开发[46]