下棋比智商！8 大 AI 模型上演棋盘大战，谁能称王？

Kaggle Game Arena平台发布 - Kaggle与Google DeepMind合作推出Kaggle Game Arena平台通过战略类游戏对人工智能模型进行对战评测 [2] - 平台采用全对全赛制每个模型多次与其他所有模型对战减少随机因素干扰使结果在统计上更可靠 [2] - 平台已将游戏运行环境规则执行模型对接等控制模块全面开源方便开发者和研究人员检查复现或扩展 [2] - 首批参赛的八个主流AI模型包括Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro与Gemini 2.5 Flash Moonshot AI的Kimi 2-K2-Instruct OpenAI的o3和o4-mini 以及xAI的Grok 4 [2] 评测维度与行业意义 - 与其他聚焦语言任务图像分类或编程挑战的AI测评平台相比 Kaggle Game Arena关注点在规则与约束下的决策力 [3] - 游戏突出推理规划与对抗适应性为目前以静态输出为主的排行榜增添了新的参照维度 [3] - 研究人员认为这类基准测试有助于发现AI系统在传统数据集之外的优势与不足 [3] - 未来平台将扩展到卡牌游戏和数字游戏等更多类型测试AI在战略推理中的不同能力包括长期规划和在不确定条件下的适应性 [5] 行业专家观点 - AI爱好者Sebastian Zabala表示国际象棋是完美的开局期待看顶级AI在实战对抗中的表现 [4] - AI布道者Koho Okada认为这可能改写评估AI智能的方式既专业又好玩 [5] - Kaggle用户Sourabh Joshi补充认为该平台是测试泛化性效率和推理力的理想战场将揭示大语言模型的真正实力 [5]