Multimodal Model
搜索文档
榜单更新,大模型密集发布周,究竟孰强孰弱?|xbench月报
红杉汇· 2026-04-28 08:06
行业技术迭代方向 - 提升模型的原生多模态能力已成为大厂主流叙事,视觉理解正被接入复杂任务执行链条 [1] - 当前模型迭代面临一个挑战:在现有文本模型基础上通过微调提升多模态能力时,长文本理解和推理能力在跑分和用户体验上会出现明显下降 [1] - 更优的技术路线是从预训练阶段就让文本和视觉模态在统一的表示空间中共同演化,使视觉成为模型推理链条的原生组成部分 [2] - 长链路、Agentic Coding(复杂代码库理解、多步调试、工具调用、前端生成、长程执行)继续成为头部模型发布的核心升级方向 [3] - 开源模型继续追赶顶尖闭源模型,超长上下文正在从高端能力转变为基础设施能力 [3] xbench-ScienceQA榜单评测结果 (2026年4月) - **GPT-5.5** 以平均分73.0并列第一,较GPT-5.4 Pro的72.2分提升0.8分,其BoN(N=5)从77.0提升至80.0,相比更早的GPT-5.2(65.2分)提升7.8分,但平均响应时间较高 [4][5] - **Claude Opus 4.7** 以平均分73.0并列第一,较上一代Claude Opus 4.6的58.8分大幅提升14.2分,BoN从76.0提升至79.0,平均响应时间从34.98秒下降至14.58秒 [4][7] - **Kimi K2.6** 平均分为65.8,较K2.5的63.2分提升2.6分,BoN从77.0提升至79.0,但平均响应时间达到124.93秒 [4][9] - **DeepSeek-V4-Pro** 平均分为64.6,高于其V3.2版本,但BoN为76.0,低于V3.2-Speciale的81.0,显示其能力重心转向更宽的任务覆盖 [4][11] - **Qwen3.6** 平均分63.4低于Qwen3.5-plus的65.6分,但BoN达到78.0(高于后者的77.0),且平均响应时间更快 [4][13] - **hy3-preview** 以56.8的平均分进入榜单,BoN为72.0 [4][13] xbench-BabyVision榜单评测结果 (2026年4月) - **Doubao-Seed-2.0-pro** 以62.60%的平均分位居第一,是视觉理解当前的SOTA模型 [15] - **GPT-5.5** 以54.64%的平均分上升至第二,超过Gemini 3.1 Pro的51.50%,相比GPT-5.2的34.40%提升超过20个百分点,但与榜首仍有接近8个百分点的差距 [15] - **Kimi K2.6** 平均分为40.21%,较K2.5的36.50%有进步,已超过GPT-5.2和Doubao-seed-1.8 [15][16] - **Claude Opus 4.7** 平均分为22.94%,较Claude Opus 4.5的14.20%有明显提升 [15][17] $OneMillion-Bench榜单评测结果 (2026年4月) - **Claude-Opus-4.6 (Search)** 以43.5%的通过率位居第一 [19] - **GPT-5.4 (Web Search)** 以38.0%的通过率位列第二 [19] - **Kimi K2.6** 在该基准上的表现(通过率16.7%)与K2.5无明显差距 [19] 重点新发布模型能力总结 - **GPT-5.5** 是本次迭代的前沿模型,在coding能力上达到当前SOTA水平,其核心提升在于将长上下文推理、工具调用和自我纠错整合到同一个工程执行栈中,使其能像工程agent一样围绕复杂代码库工作 [20] - **Claude Opus 4.7** 的核心升级是多模态理解(支持更高分辨率图像输入)和长链路工作流稳定性,新增的task budget功能让模型能在完整agent循环中更好地分配思考、工具调用和输出 [21][22] - **Kimi K2.6** 是月之暗面发布的开源MoE模型,采用1T总参数、每个token激活32B参数的稀疏架构,在无需人工干预的长时间自主运行场景中提升明显,能将长程coding、多Agent协作和持续工具调用整合进完整的agent产品场景 [23] - **DeepSeek-V4** 作为开源模型继续逼近主流闭源模型表现,其Pro版本在agentic coding、世界知识和推理能力上显著提升,并重点通过MoE与DSA稀疏注意力机制解决1M超长上下文下的计算与显存压力 [24] - **腾讯Hy3 Preview** 是混元基础模型的一次重要重启,为295B总参数、21B激活参数的MoE模型,支持256K上下文,重点提升复杂推理、指令遵循、上下文学习、coding和agent tasks [25] - **阿里Qwen3.6** 同步更新开源和云端闭源模型,相比上一版本在世界知识、指令遵循和agentic coding上有明显提升,更聚焦于理解代码库、调用工具、生成前端等真实开发任务 [26]