谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
比赛概述 - 一场为期3天的AI国际象棋比赛将于太平洋时间8月5日至7日举行,旨在通过实战检验前沿AI模型的真实性能[2] - 比赛基于谷歌推出的Kaggle Game Arena平台,这是一个公开的AI基准测试平台,支持策略游戏对战[6] - 组织方邀请了世界顶级国际象棋专家担任解说,并开源了游戏执行框架和环境以确保透明度[6][8] 参赛模型 - 共有8款前沿AI模型参赛,包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro/Flash、Anthropic的Claude Opus 4以及xAI的Grok 4[7] - 参赛模型均为行业顶流,包含两款中国开源模型,且对战双方性能旗鼓相当[5] 比赛机制 - 采用单败淘汰制,每场对决包含4局比赛,先获2分者晋级(胜局1分,平局0.5分),若2-2平局则加赛决胜[14] - 模型不得使用外部工具(如Stockfish引擎),且不会被告知合法走法列表[17] - 每步棋有60分钟超时限制,非法走法最多可重试3次,否则判负[17] 赛程安排 - 8月5日:8款模型进行4场初赛(每场4局)[17] - 8月6日:晋级的4款模型进行2场半决赛[17] - 8月7日:决赛日进行冠军争夺战[17] 平台意义 - 谷歌指出当前AI基准测试已难以跟上模型发展速度,Game Arena旨在通过动态对战提供更有效的性能评估[12] - 平台支持实时查看对阵表、动态排行榜及开源代码,未来将引入更多游戏以推动AI能力快速提升[8][12]