Workflow
Kimi K2 Instruct
icon
搜索文档
爆冷,首届大模型争霸,Grok 4下出“神之一手”?DeepSeek、Kimi惨遭淘汰
36氪· 2025-08-07 09:16
AI国际象棋对抗?这次玩真的!谷歌Kaggle推出首届全球AI象棋争霸赛,八款顶级语言模型正面对抗,胜负只在一步之间! 国际象棋全球AI争霸赛来了! 首战即放狠招:让全球八款最强语言模型,国际象棋正面对抗: 闭源的大模型:Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash; 开源的大模型:DeepSeek R1和Kimi K2 Instruct。 首战落幕 今日凌晨1点,这场大赛正式打响了8进4淘汰战: Gemini 2.5 Pro、o4-mini、Grok 4、和o3,以4-0的碾压式战绩横扫对手,进入半决赛。 而Claude 4 Opus、DeepSeek R1、Gemini 2.5 Flash和Kimi K2没能撑过中盘,就已纷纷崩溃退场。 第二天的半决赛,OpenAI的o3-mini和o3将「自相残杀」,而Gemini 2.5 Pro和Grok 4则狭路相逢 整场赛事由谷歌旗下的Kaggle举办。为此,他们专为通用大模型打造了竞技平台——「Game Arena」。 谷歌表示游戏是评估模型与智能体的理 ...
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
36氪· 2025-08-06 16:41
比赛概况 - 谷歌举办首届Kaggle AI国际象棋竞赛 旨在测试AI的涌现能力 比赛时间为8月5日至8月7日每天10:30(太平洋时间)并全程直播 [5][6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4共8个顶级模型 [6] - 直播特邀国际象棋特技大师中村光担任讲解 其为全美冠军及GM头衔持有者 现任EWC国际象棋锦标赛季军 [7] 赛程安排 - 比赛周为8月4日至10日 其中周二至周四为AI展览锦标赛 具体时段为EDT时间10:30 AM或1:00 PM(对应印度时间9:00 PM或11:30 PM) [9] - 首日比赛后 Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3晋级半决赛 [9][12] 首日赛果分析 - 所有八分之一决赛均以4-0的完美比分结束 体现明显实力差距 [12] - Grok 4表现最佳 被网友评价为"在战术策略和速度上超越所有其他模型" 其与Gemini 2.5 Flash对局中展现GM级水平 轻松获胜 [13][14] - OpenAI o4-mini战胜DeepSeek R1 虽双方均有失误 但o4-mini率先抓住R1的推理错误及棋盘局势误判 [16] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当日最佳 两者展示高水平棋艺 Gemini Pro展现强大战术视野但分析冗长 Claude则出现失误 [18] - Kimi K2 Instruct因反复走非法棋步被o3弃权击败 成为最快结束的四分之一决赛 有观点认为Kimi作为非推理模型需长思考才能发挥性能 [20] 模型预期变化 - 赛前网友投票显示Gemini 2.5 Pro以22%支持率最被看好 o4-mini以3%支持率紧随其后 [28][31] - 首日后Grok 4支持率呈现压倒性优势 远超其他模型 [30] 比赛意义 - 国际象棋因规则明确但复杂度高(10^120种可能局面)成为测试AI决策能力的理想场景 重点考察涌现能力而非暴力计算 [21][23] - 网友普遍认为国际象棋是可靠评估AI能力的方式 其反映模型的一致性泛化能力而非领域特定训练 [24]
战报:马斯克Grok4笑傲AI象棋大赛,DeepSeek没干过o4-mini,Kimi K2被喊冤
量子位· 2025-08-06 16:14
比赛概况 - 首届Kaggle AI国际象棋竞赛由谷歌发起,旨在推广Kaggle游戏竞技场,首次比赛以国际象棋为主题[6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4[7] - 比赛于8月5日至8月7日每天10:30(太平洋时间)直播,并邀请国际象棋特技大师中村光作为讲解[8][10] 首日赛况 - Grok 4表现最佳,被网友评价为"在战术策略和速度上超越所有其他模型",其与Gemini 2.5 Flash的对决中以完美4-0获胜[16][17] - OpenAI的o4-mini击败DeepSeek R1,后者开局强劲但最终因失误落败[20][21] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当天最佳,双方展示高水平棋艺,但Claude出现失误而Gemini Pro分析冗长[23][24] - Kimi K2 Instruct表现最差,因反复走非法棋步被o3弃权击败[25] 半决赛对阵 - 挺入半决赛的模型为Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3[12] - 网友关注焦点为o4-mini与o3的"内斗",以及Gemini 2.5 Pro对战Grok 4[13] 模型能力评估 - 国际象棋因规则明确但复杂度高(10^120种可能局面),成为测试AI决策能力和涌现能力的理想场景[31][36] - 网友认为Grok 4的优异表现体现前沿AI的一致性泛化能力,而非传统领域特定训练模式[38] - 赛前Manifold投票显示Gemini 2.5 Pro最被看好,但首轮后Grok 4支持率呈压倒性优势(22% vs 未明确比例)[42][44] 行业动态 - 马斯克借Grok 4表现进行PR,称其优异表现是"副作用"而非刻意训练结果[4] - 量子位将于8月7日举办AI沙龙,邀请百度文心快码、智谱、Kimi等厂商讨论AI Coding重构开发[46]
闹玩呢,首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
36氪· 2025-08-06 16:01
大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛,参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2,晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行,旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼,不仅以4-0全胜,还展现出精准捕捉无保护棋子的能力,被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型,但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军,但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct,Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注,xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]
谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
机器之心· 2025-08-05 12:09
比赛概述 - 一场为期3天的AI国际象棋比赛将于太平洋时间8月5日至7日举行,旨在通过实战检验前沿AI模型的真实性能[2] - 比赛基于谷歌推出的Kaggle Game Arena平台,这是一个公开的AI基准测试平台,支持策略游戏对战[6] - 组织方邀请了世界顶级国际象棋专家担任解说,并开源了游戏执行框架和环境以确保透明度[6][8] 参赛模型 - 共有8款前沿AI模型参赛,包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro/Flash、Anthropic的Claude Opus 4以及xAI的Grok 4[7] - 参赛模型均为行业顶流,包含两款中国开源模型,且对战双方性能旗鼓相当[5] 比赛机制 - 采用单败淘汰制,每场对决包含4局比赛,先获2分者晋级(胜局1分,平局0.5分),若2-2平局则加赛决胜[14] - 模型不得使用外部工具(如Stockfish引擎),且不会被告知合法走法列表[17] - 每步棋有60分钟超时限制,非法走法最多可重试3次,否则判负[17] 赛程安排 - 8月5日:8款模型进行4场初赛(每场4局)[17] - 8月6日:晋级的4款模型进行2场半决赛[17] - 8月7日:决赛日进行冠军争夺战[17] 平台意义 - 谷歌指出当前AI基准测试已难以跟上模型发展速度,Game Arena旨在通过动态对战提供更有效的性能评估[12] - 平台支持实时查看对阵表、动态排行榜及开源代码,未来将引入更多游戏以推动AI能力快速提升[8][12]