Workflow
Grok-4登顶,Kimi K2非思考模型SOTA,豆包、DeepSeek新模型性能提升|xbench月报
红杉汇·2025-07-18 08:47

AI大模型竞争格局 - xAI发布的Grok-4以65分登顶ScienceQA榜单榜首,相比前代Grok-3-mini提升50%性能,成为当前SOTA模型[1][4] - Kimi K2以1万亿参数规模成为最大开源MoE模型,首次进入榜单前十(49.6分),位列Non-Thinking模型第一[1][11][24] - OpenAI的o3-high(60.8分)、Google Gemini 2.5 Pro(59.4分)、字节跳动Doubao-Seed-1.6(56.6分)保持第二至第五名[3][8] 模型性能突破 - Grok-4采用多智能体协作模块和实时网页检索技术,在Humanity's Last Exam等专家级测试中取得突破[21][23] - Kimi K2通过MuonClip优化器实现15T token稳定训练,预训练阶段即具备agentic tool use能力[24] - o3-pro针对科学/编程领域优化,支持200k token长上下文处理,但存在过度思考现象[25] 成本与效率对比 - 高价高质区:Grok-4($15/百万token)性能优于o3-pro($80)且成本仅其1/4,Gemini 2.5 Pro($10)实现50s内快速响应[15][17] - 性价比区:字节跳动Doubao-Seed-1.6($1.1)与DeepSeek-R1($2.24)成本优势显著,性能均超54分[15][19] - 响应时间:Grok-4达227秒最长,Gemini 2.5 Pro保持59.4分同时将响应时间压缩至44.82秒[3][17] 技术指标分析 - BoN指标显示Grok-4与o3-high以78分并列多步推理第一,DeepSeek-R1(77分)成本更低[22] - 国产模型中DeepSeek-R1(77分)领先,Kimi K2与Doubao-Seed-1.6(73分)并列第二[22] - 推理模型普遍呈现响应时间与得分正相关,非推理模型Kimi K2在低延迟下取得73分BoN成绩[11][14] 行业动态 - xbench开源ScienceQA和DeepSearch评测集,覆盖16家公司43个模型版本[6][26][27] - 主流厂商模型偏序保持稳定,OpenAI/Google/字节跳动/DeepSeek/Anthropic维持原有排名[8] - 万亿参数时代开启,Kimi K2开源推动行业技术共享,xAI通过十倍算力投入实现Grok系列跨越式发展[21][24]