Kimi K2 Instruct - 财报，业绩电话会，研报，新闻

Kimi K2 Instruct

搜索文档

Kimi K2 Thinking突袭！智能体&推理能力超GPT-5，网友：再次缩小开源闭源差距

量子位· 2025-11-07 09:09

模型核心能力与定位 - 模型定位为“模型即Agent”，是迄今能力最强的开源思考模型，具备边思考边使用工具的能力，无需人工干预即可执行200-300次连续工具调用 [1] - 作为今年最受关注的开源模型系列之一，其发布被认为再次缩小了开源模型与闭源模型的差距 [3] - 模型代码和权重遵循最为宽松的MIT协议，已上线官方网站和手机应用，API可通过开放平台访问 [10] 技术架构与性能 - 模型采用1TB参数，激活参数为32B，使用INT4量化而非FP8，拥有256K上下文窗口 [5] - 通过测试时扩展技术，同时扩展思考Token和工具调用轮次，实现了更强的Agent和推理性能 [11] - 采用INT4纯权重量化，支持原生INT4推理，将生成速度提升了约2倍，且对国产加速计算芯片更友好 [30][31][32] 基准测试表现 - 在人类最后的考试中，允许使用工具的情况下取得了44.9%的SOTA成绩 [12] - 在智能体工具使用基准²-Bench Telecom中，性能从73%提升至93%，达到SOTA水平 [14][15] - 在测试自主网络浏览能力的BrowseComp基准上，以60.2%的成绩成为新的SOTA模型，远超人类平均智能29.2%的分数 [18] 自主搜索与复杂任务处理 - 模型具备长程规划和自主搜索能力，可借助上百轮的“思考→搜索→浏览→编程”动态循环，持续提出并完善假设、验证证据和进行推理 [20] - 能够将模糊且开放式的问题分解为清晰、可执行的子任务 [21] - 在第三方测试中，通过23次推理和工具调用成功解决了博士级别数学问题 [14] 编程与开发能力 - 在SWE-Multilingual、SWE-bench验证集和LiveCodeBench等编程基准测试中，能与GPT-5、Claude Sonnet 4.5等最强闭源模型竞争 [22] - 在处理HTML、React及组件丰富的前端任务时性能有明显提升，能将创意转变为功能齐全、响应式的产品 [24] - 在Agentic Coding场景中，能调用各种工具同时进行思考，灵活融入software agents处理复杂、多步骤的开发工作流，例如复刻真实可用的Word文字编辑器或创造voxel art作品 [24][25][27] 通用基础能力升级 - 创意写作能力显著提升，能将粗略灵感转化为清晰、动人且意图明确的叙述，驾驭微妙文风差异并在长篇中保持风格连贯性 [28] - 学术与研究能力增强，在分析深度、信息准确性和逻辑结构方面有显著提升，擅长处理学术论文、技术摘要和长篇报告 [28] - 回应个人或情感类问题时更富同理心，能提供细致入微的观点和切实可行的建议 [28]

爆冷，首届大模型争霸，Grok 4下出“神之一手”？DeepSeek、Kimi惨遭淘汰

36氪· 2025-08-07 09:16

赛事概况 - 谷歌旗下Kaggle平台举办首届全球AI国际象棋争霸赛旨在通过游戏竞技评估通用大模型智能水平[1][3] - 参赛模型包括8款顶级语言模型：闭源阵营为Gemini 2.5 Pro、OpenAI o4-mini、Grok 4、OpenAI o3、Claude 4 Opus、Gemini 2.5 Flash 开源阵营为DeepSeek R1和Kimi K2 Instruct[1] - 比赛采用单败淘汰制首日进行8进4淘汰赛胜者以4-0全胜战绩晋级半决赛[2] 首轮赛果 - OpenAI o4-mini以4-0击败DeepSeek R1 后者在脱离开局模板后出现瞄准不存在棋子、防守无威胁空格等严重认知错误[11][13] - OpenAI o3因对手Kimi K2连续4局非法走子自动晋级最短对局不足8回合 Kimi K2在脱离套路后出现棋盘误读[9][10] - Gemini 2.5 Pro以4-0淘汰Claude 4 Opus 后者在第十回合主动敞开防线送出突破口成为首轮最接近真实对抗的对局[14][15][16] - Grok 4以4-0碾压Gemini 2.5 Flash 被业内评为开赛最佳表现其精准识别弱点能力获马斯克在X平台转发[17][20] 赛事价值 - 游戏竞技具备无限扩展性和思维可视化优势可完整追踪模型决策链并评估策略推理能力[3] - 明确输赢信号为AI智能评估提供理想试验场尤其考验复杂推理任务中的长期规划与动态适应能力[21] - 真实评分标准基于数百场未公开对局本次公开赛仅为测试通用智能的开局小规模测试[22] 赛程安排 - 半决赛对阵为OpenAI o3-mini对战同门o3 Gemini 2.5 Pro对战Grok 4[3] - 半决赛将于太平洋时间次日上午10:30举行[5]

战报：马斯克Grok4笑傲AI象棋大赛，DeepSeek没干过o4-mini，Kimi K2被喊冤

36氪· 2025-08-06 16:41

比赛概况 - 谷歌举办首届Kaggle AI国际象棋竞赛旨在测试AI的涌现能力比赛时间为8月5日至8月7日每天10:30（太平洋时间）并全程直播 [5][6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4共8个顶级模型 [6] - 直播特邀国际象棋特技大师中村光担任讲解其为全美冠军及GM头衔持有者现任EWC国际象棋锦标赛季军 [7] 赛程安排 - 比赛周为8月4日至10日其中周二至周四为AI展览锦标赛具体时段为EDT时间10:30 AM或1:00 PM（对应印度时间9:00 PM或11:30 PM） [9] - 首日比赛后 Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3晋级半决赛 [9][12] 首日赛果分析 - 所有八分之一决赛均以4-0的完美比分结束体现明显实力差距 [12] - Grok 4表现最佳被网友评价为"在战术策略和速度上超越所有其他模型" 其与Gemini 2.5 Flash对局中展现GM级水平轻松获胜 [13][14] - OpenAI o4-mini战胜DeepSeek R1 虽双方均有失误但o4-mini率先抓住R1的推理错误及棋盘局势误判 [16] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当日最佳两者展示高水平棋艺 Gemini Pro展现强大战术视野但分析冗长 Claude则出现失误 [18] - Kimi K2 Instruct因反复走非法棋步被o3弃权击败成为最快结束的四分之一决赛有观点认为Kimi作为非推理模型需长思考才能发挥性能 [20] 模型预期变化 - 赛前网友投票显示Gemini 2.5 Pro以22%支持率最被看好 o4-mini以3%支持率紧随其后 [28][31] - 首日后Grok 4支持率呈现压倒性优势远超其他模型 [30] 比赛意义 - 国际象棋因规则明确但复杂度高（10^120种可能局面）成为测试AI决策能力的理想场景重点考察涌现能力而非暴力计算 [21][23] - 网友普遍认为国际象棋是可靠评估AI能力的方式其反映模型的一致性泛化能力而非领域特定训练 [24]

战报：马斯克Grok4笑傲AI象棋大赛，DeepSeek没干过o4-mini，Kimi K2被喊冤

量子位· 2025-08-06 16:14

比赛概况 - 首届Kaggle AI国际象棋竞赛由谷歌发起，旨在推广Kaggle游戏竞技场，首次比赛以国际象棋为主题[6] - 参赛模型包括OpenAI的o3和o4-mini、DeepSeek R1、Kimi K2 Instruct、Gemini 2.5 Pro和2.5 Flash、Claude Opus 4、Grok 4[7] - 比赛于8月5日至8月7日每天10:30（太平洋时间）直播，并邀请国际象棋特技大师中村光作为讲解[8][10] 首日赛况 - Grok 4表现最佳，被网友评价为"在战术策略和速度上超越所有其他模型"，其与Gemini 2.5 Flash的对决中以完美4-0获胜[16][17] - OpenAI的o4-mini击败DeepSeek R1，后者开局强劲但最终因失误落败[20][21] - Gemini 2.5 Pro与Claude Opus 4的对局被评为当天最佳，双方展示高水平棋艺，但Claude出现失误而Gemini Pro分析冗长[23][24] - Kimi K2 Instruct表现最差，因反复走非法棋步被o3弃权击败[25] 半决赛对阵 - 挺入半决赛的模型为Gemini 2.5 Pro、Grok 4、ChatGPT的o4-mini和o3[12] - 网友关注焦点为o4-mini与o3的"内斗"，以及Gemini 2.5 Pro对战Grok 4[13] 模型能力评估 - 国际象棋因规则明确但复杂度高（10^120种可能局面），成为测试AI决策能力和涌现能力的理想场景[31][36] - 网友认为Grok 4的优异表现体现前沿AI的一致性泛化能力，而非传统领域特定训练模式[38] - 赛前Manifold投票显示Gemini 2.5 Pro最被看好，但首轮后Grok 4支持率呈压倒性优势（22% vs 未明确比例）[42][44] 行业动态 - 马斯克借Grok 4表现进行PR，称其优异表现是"副作用"而非刻意训练结果[4] - 量子位将于8月7日举办AI沙龙，邀请百度文心快码、智谱、Kimi等厂商讨论AI Coding重构开发[46]

闹玩呢，首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了

36氪· 2025-08-06 16:01

大模型国际象棋对抗赛首轮结果 - 谷歌发起首届大模型国际象棋对抗赛，参赛模型包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2 5 Pro和Gemini 2 5 Flash、Anthropic的Claude Opus 4以及xAI的Grok 4 [1] - 首轮比赛结果为Gemini 2 5 Pro、o4-mini、Grok 4和o3均以4-0的战绩分别击败Claude 4 Opus、DeepSeek R1、Gemini 2 5 Flash和Kimi k2，晋级半决赛 [1] - 比赛在Kaggle Game Arena平台进行，旨在探索大模型在动态竞争环境中的表现 [1] 各模型表现分析 - Grok 4表现最为亮眼，不仅以4-0全胜，还展现出精准捕捉无保护棋子的能力，被认为突破了当前大模型在象棋对弈中的三大关键短板 [21][24][27] - Gemini 2 5 Pro是唯一通过"将杀"获胜场次多于因违规告负场次的模型，但真实棋力尚不明确 [14] - o4-mini在与DeepSeek R1的对局中成功实现两次将军，但棋局质量存在断崖式下跌现象 [10][13] - o3轻松击败非推理模型Kimi K2 Instruct，Kimi k2在脱离开局理论后出现技术问题 [3][6][9] 行业观察 - 比赛暴露出大语言模型在象棋对弈中的三大关键短板：全局棋盘视觉化能力不足、棋子间互动关系理解有限以及合法着法执行问题 [27] - 赛前投票显示37%的参与者最看好Gemini 2 5 Pro [27] - 比赛结果引发科技界关注，xAI创始人埃隆・马斯克再次提及"国际象棋太过简单"的观点 [24]

谷歌约战，DeepSeek、Kimi都要上，首届大模型对抗赛明天开战

机器之心· 2025-08-05 12:09

比赛概述 - 一场为期3天的AI国际象棋比赛将于太平洋时间8月5日至7日举行，旨在通过实战检验前沿AI模型的真实性能[2] - 比赛基于谷歌推出的Kaggle Game Arena平台，这是一个公开的AI基准测试平台，支持策略游戏对战[6] - 组织方邀请了世界顶级国际象棋专家担任解说，并开源了游戏执行框架和环境以确保透明度[6][8] 参赛模型 - 共有8款前沿AI模型参赛，包括OpenAI的o4-mini和o3、DeepSeek的DeepSeek-R1、月之暗面的Kimi K2 Instruct、谷歌的Gemini 2.5 Pro/Flash、Anthropic的Claude Opus 4以及xAI的Grok 4[7] - 参赛模型均为行业顶流，包含两款中国开源模型，且对战双方性能旗鼓相当[5] 比赛机制 - 采用单败淘汰制，每场对决包含4局比赛，先获2分者晋级（胜局1分，平局0.5分），若2-2平局则加赛决胜[14] - 模型不得使用外部工具（如Stockfish引擎），且不会被告知合法走法列表[17] - 每步棋有60分钟超时限制，非法走法最多可重试3次，否则判负[17] 赛程安排 - 8月5日：8款模型进行4场初赛（每场4局）[17] - 8月6日：晋级的4款模型进行2场半决赛[17] - 8月7日：决赛日进行冠军争夺战[17] 平台意义 - 谷歌指出当前AI基准测试已难以跟上模型发展速度，Game Arena旨在通过动态对战提供更有效的性能评估[12] - 平台支持实时查看对阵表、动态排行榜及开源代码，未来将引入更多游戏以推动AI能力快速提升[8][12]

Artificial Intelligence

Kimi K2 Instruct

Gemini 2.5 Pro

Claude Opus 4

Artificial Intelligence

Kimi K2 Instruct

Gemini 2.5 Pro

Claude Opus 4