Kimi k2 - 财报，业绩电话会，研报，新闻

Kimi k2

搜索文档

DeepSeek、Kimi 首轮淘汰，马斯克 Grok 4 杀进决赛，首届全球 AI 对抗赛连爆冷门

36氪· 2025-08-07 16:27

比赛概况 - 由Google旗下Kaggle平台举办的首届AI国际象棋锦标赛为期三天聚集八款全球主流语言模型采用"Chess-Text Harness"规则体系测试纯粹推理能力[3][8][9] - 比赛结果：OpenAI的o3以4:0横扫o4 mini晋级决赛 xAI的Grok 4通过加时赛以3:2险胜Gemini 2.5 Pro 两者将在决赛相遇[1][8][22] - 月之暗面Kimi k2和DeepSeek R1在首轮均以0:4被淘汰未进入四强 Kimi赛前公开质疑匹配机制称其推理版本尚未发布[1][5][9] 参赛模型 - 八款参赛模型包括：Anthropic的Claude Opus 4 DeepSeek的DeepSeek-R1 Google的Gemini 2.5 Pro和Gemini 2.5 Flash 月之暗面的Kimi k2 OpenAI的o3和o4-mini xAI的Grok 4[3] - 首轮比赛结果：Gemini 2.5 Pro o4-mini Grok 4和o3均以4:0战绩分别淘汰Claude Opus 4 DeepSeek R1 Gemini 2.5 Flash和Kimi k2[9] 技术规则 - 比赛禁止模型调用任何工具(如Stockfish引擎) 系统不提供合法走法列表模型需自主判断[9] - 非法走法给予最多3次重试机会四次尝试失败直接判负每步走法有60分钟超时限制[9] - 模型仅通过文本符号理解棋盘状态无法依赖图像识别重点测试战略规划推理记忆和适应能力[9] 赛事细节 - 半决赛中o3展现出压倒性实力识破o4 mini设置的罕见将死陷阱并用一步棋化解威胁通过精准战术组合获胜[11][12] - Grok 4与Gemini 2.5 Pro的五局激战：首局Grok 4犯下低级错误白送主教第二局开局白送骑士但中后盘逆转取胜第三局展现Stockfish水准通过精妙战术组合获胜[13][15][17] - 决胜局采用"Armageddon"赛制：执黑的Grok 4只需和棋即可获胜 Grok在多吃皇后情况下因重复移动导致和棋最终凭借规则晋级决赛[19][22] 行业动态 - Kaggle推出全新Game Arena基准测试平台支持模型间实时对决与回放未来将加入更多游戏和模型[8] - 马斯克在社交媒体评论xAI"在国际象棋上几乎没花什么心思" 映射其与奥特曼的竞争关系[1][22]

Seek .(US:SKLTY)

Artificial Intelligence

国际象棋

Artificial Intelligence

Kimi k2

Gemini 2.5 Pro

Gemini 2.5 Flash

Artificial Intelligence

国际象棋

Artificial Intelligence

Kimi k2

Gemini 2.5 Pro

Gemini 2.5 Flash

首届大模型象棋争霸赛：Grok 4与o3挺进决赛，DeepSeek、Kimi落败

36氪· 2025-08-07 14:16

比赛概述 - Google旗下Kaggle平台主办的"棋局竞技场"AI国际象棋表演赛半决赛中，Grok 4和o3分别击败Gemini 2.5 Pro和o4-mini，晋级决赛 [1] - 比赛为期三天，参赛者为八个大型语言模型（LLM），包括Grok 4（xAI）、Gemini 2.5 Pro（谷歌）、o4-mini（OpenAI）、o3（OpenAI）、Claude 4 Opus（Anthropic）、Gemini 2.5 Flash（谷歌）、DeepSeek R1（DeepSeek）和Kimi k2（月之暗面）[1] - 比赛采用单败淘汰制，规则聚焦AI对棋局的理解力与问题解决能力，不比算力 [1] 首日比赛结果 - 首日四场比赛均以"4-0"比分结束，Gemini 2.5 Pro、o4-mini、Grok 4和o3晋级半决赛 [3][11] - Gemini 2.5 Pro以4-0完胜Claude 4 Opus，展现稳健的棋盘掌控力 [12] - o4-mini以4-0击败DeepSeek R1，DeepSeek R1因连续失误落败 [14] - Grok 4以4-0击败Gemini 2.5 Flash，表现引发xAI创始人埃隆·马斯克在X平台上的热议 [19] - o3以4-0战胜Kimi k2，Kimi k2因连续四次无法作出合法移动而连输四局 [22] 半决赛表现 - 半决赛中，Grok 4与Gemini 2.5 Pro的对决以2-2平局进入加赛，Grok 4最终因平局胜权晋级 [8] - o3以4-0完胜其轻量版o4-mini，展现压倒性优势，并在第三局中走出两招妙棋 [5] - Chess.com指出此次赛事暴露出AI模型整体缺乏语境理解，难以执行基本战术序列等问题 [22] 决赛预告 - 决赛将于美国东部时间8月7日13时（北京时间8月8日1时）举行，由xAI的Grok 4对阵OpenAI的o3 [22] - Gemini 2.5 Pro与o4-mini将争夺三、四名 [22]

Seek .(US:SKLTY)

大模型

Artificial Intelligence

Artificial Intelligence

o4 - mini

Claude 4 Opus

Gemini 2.5 Flash

闹玩呢！首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

机器之心· 2025-08-06 12:31

比赛概况 - 谷歌发起首届大模型国际象棋对抗赛，旨在探索LLM在动态竞争环境中的表现[3][6] - 参赛模型包括Gemini 2 5 Pro、o4-mini、Grok 4、o3、Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2[10] - 第一轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0战绩晋级半决赛[4] 模型表现分析 - **Grok 4**：以全胜战绩表现最佳，展现精准捕捉无保护棋子能力，突破LLM三大短板（全局棋盘视觉化不足、棋子互动理解有限、合法着法执行问题）[30][33][36] - **o4-mini**：对阵DeepSeek R1时出现开局高质量但后续断崖式下跌现象，但实现两次将军[18][21][22] - **Gemini 2 5 Pro**：唯一通过将杀获胜多于违规的模型，第四局虽拥有32分子力优势仍出现送子[23][24] - **o3**：对阵Kimi k2时因对方连续四次无合法着法获胜，Kimi k2在脱离开局理论后技术问题显著[7][8][9] 技术短板与观察 - LLM普遍存在棋盘状态识别混乱问题，如Kimi k2能识别局势但无法执行合法着法[13][14] - 部分模型（如Claude 4 Opus）在稳定对局后突发草率决策（如10...g5送兵破坏王城安全）[27] - 赛前投票显示37 64%参与者最看好Gemini 2 5 Pro，但实际表现与预期存在差异[37][38] 赛事影响 - Grok 4表现引发科技界关注，创始人马斯克重申"国际象棋太过简单"观点[33] - 比赛结果揭示LLM在复杂策略游戏中的能力边界，半决赛表现将验证模型稳定性[36]