Workflow
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线·2025-09-18 10:28

Kaggle Game Arena平台发布 - Kaggle与Google DeepMind合作推出Kaggle Game Arena平台 通过战略类游戏对人工智能模型进行对战评测 [2] - 平台采用全对全赛制 每个模型多次与其他所有模型对战 减少随机因素干扰 使结果在统计上更可靠 [2] - 平台已将游戏运行环境 规则执行 模型对接等控制模块全面开源 方便开发者和研究人员检查 复现或扩展 [2] - 首批参赛的八个主流AI模型包括Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro与Gemini 2.5 Flash Moonshot AI的Kimi 2-K2-Instruct OpenAI的o3和o4-mini 以及xAI的Grok 4 [2] 评测维度与行业意义 - 与其他聚焦语言任务 图像分类或编程挑战的AI测评平台相比 Kaggle Game Arena关注点在规则与约束下的决策力 [3] - 游戏突出推理 规划与对抗适应性 为目前以静态输出为主的排行榜增添了新的参照维度 [3] - 研究人员认为这类基准测试有助于发现AI系统在传统数据集之外的优势与不足 [3] - 未来平台将扩展到卡牌游戏和数字游戏等更多类型 测试AI在战略推理中的不同能力 包括长期规划和在不确定条件下的适应性 [5] 行业专家观点 - AI爱好者Sebastian Zabala表示国际象棋是完美的开局 期待看顶级AI在实战对抗中的表现 [4] - AI布道者Koho Okada认为这可能改写评估AI智能的方式 既专业又好玩 [5] - Kaggle用户Sourabh Joshi补充认为该平台是测试泛化性 效率和推理力的理想战场 将揭示大语言模型的真正实力 [5]