Grok-4登顶，Kimi K2非思考模型SOTA，豆包、DeepSeek新模型性能提升｜xbench月报

AI大模型竞争格局 - xAI发布的Grok-4以65分登顶ScienceQA榜单榜首，相比前代Grok-3-mini提升50%性能，成为当前SOTA模型[1][4] - Kimi K2以1万亿参数规模成为最大开源MoE模型，首次进入榜单前十（49.6分），位列Non-Thinking模型第一[1][11][24] - OpenAI的o3-high（60.8分）、Google Gemini 2.5 Pro（59.4分）、字节跳动Doubao-Seed-1.6（56.6分）保持第二至第五名[3][8] 模型性能突破 - Grok-4采用多智能体协作模块和实时网页检索技术，在Humanity's Last Exam等专家级测试中取得突破[21][23] - Kimi K2通过MuonClip优化器实现15T token稳定训练，预训练阶段即具备agentic tool use能力[24] - o3-pro针对科学/编程领域优化，支持200k token长上下文处理，但存在过度思考现象[25] 成本与效率对比 - 高价高质区：Grok-4（$15/百万token）性能优于o3-pro（$80）且成本仅其1/4，Gemini 2.5 Pro（$10）实现50s内快速响应[15][17] - 性价比区：字节跳动Doubao-Seed-1.6（$1.1）与DeepSeek-R1（$2.24）成本优势显著，性能均超54分[15][19] - 响应时间：Grok-4达227秒最长，Gemini 2.5 Pro保持59.4分同时将响应时间压缩至44.82秒[3][17] 技术指标分析 - BoN指标显示Grok-4与o3-high以78分并列多步推理第一，DeepSeek-R1（77分）成本更低[22] - 国产模型中DeepSeek-R1（77分）领先，Kimi K2与Doubao-Seed-1.6（73分）并列第二[22] - 推理模型普遍呈现响应时间与得分正相关，非推理模型Kimi K2在低延迟下取得73分BoN成绩[11][14] 行业动态 - xbench开源ScienceQA和DeepSearch评测集，覆盖16家公司43个模型版本[6][26][27] - 主流厂商模型偏序保持稳定，OpenAI/Google/字节跳动/DeepSeek/Anthropic维持原有排名[8] - 万亿参数时代开启，Kimi K2开源推动行业技术共享，xAI通过十倍算力投入实现Grok系列跨越式发展[21][24]