榜单更新,字节Seed2.0表现亮眼,我们还测了爆火的龙虾 |xbench 月报
红杉汇·2026-03-04 10:49

xBench评测体系更新与行业采用 - 春节期间,xBench对多家公司发布的最新模型进行了评测,并更新了Leaderboard榜单 [1] - xBench最新发布的多模态理解评测集BabyVision,已被近期发布的多款模型产品纳入评测体系,包括Seed-2.0、Qwen3.5、Kimi K2.5等,在其公开发布的技术报告中均有引用,体现了社区对该评测集的广泛关注与采用 [1][14] - xBench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单将陆续更新 [1] ScienceQA榜单模型表现 - 在ScienceQA榜单上,头部模型竞争激烈,分差相对紧凑 [5] - 字节跳动Doubao-Seed-2.0-pro (high):以69.2的平均分位列国产模型第一,仅次于Google的Gemini 3 Pro(71.6分),其BoN(Best of N,N=5)分数为85.0分 [3][5] - 该模型输出token成本为每百万token 2.28美元,仅为Gemini 3 Pro(12美元)的约四分之一,性价比突出 [3][5] - 其BoN分数(85.0)与平均分(69.2)的差距在2.0阶段明显缩小,表明模型单次推理稳定性提升,高分不再主要依赖多次采样 [5] - 阿里巴巴Qwen3.5-plus:以65.6分位列第三,较其上一代模型Qwen3-235B-A22B-Thinking-2507的55.0分提升了10.6分,BoN分数保持在77.0,显示出平均表现上的明显跃升 [3][7] - 智谱AI GLM-5:以65.0分位列第六,较上一版本GLM-4.7的60.8分提升了4.2分,在提升表现的同时,平均响应时间没有明显变化,保持了较高的推理效率 [3][8][9] DeepSearch榜单模型表现 - 在DeepSearch榜单中,Google Gemini Pro以53分位列第二,同时每道题平均耗时约1.8分钟,在头部产品中响应效率突出,但token成本也极高,完成100题的成本约为249.99美元 [11] - OpenAI ChatGPT-5-Pro以79分位列第一,完成100题的成本约为8.5美元,平均每道题耗时约6.1分钟 [11] BabyVision榜单模型表现 - 在BabyVision多模态理解榜单中,字节跳动Doubao-Seed-2.0-pro以62.60%的得分位列第一,大幅领先第二名Google Gemini 3.1 Pro(51.50%)11.10个百分点 [13] - Google Gemini 3.1 Pro以51.50%位列第二,较Gemini 3 Pro(49.70%)有小幅提升 [13] - 阿里巴巴Qwen3.5-397B-A17B以43.3%位列第三,较其上一代模型Qwen3-VL-235B-Thinking(22.20%)显著提升了21.1个百分点 [13] - 该模型采用原生多模态路线,通过早期文本-视觉融合以及扩展的视觉/视频数据训练,实现了更强的多模态理解能力 [13] 重点模型能力与产品迭代方向 - 近期模型迭代呈现出三个清晰方向:全训练阶段的多模态增强、竞争从单点基准测试扩展到更真实长程的Agent任务、构建高效稳定的异步Agent强化学习基础设施 [28] - 字节跳动Seed2.0:在VLMsAreBiased、VLMsAreBlind、BabyVision等多个多模态基准测试中取得了业界最高分,表明其面对不同类型视觉输入时,能保持准确且可信的感知和判断能力 [15][16] - 其视觉感知能力进一步升级,对复杂文档、表格、图形、视频内容的解析水平显著提升 [29][30] - 阿里巴巴Qwen3.5:引入混合注意力机制和极致稀疏的MoE架构,以Qwen3.5-Plus为例,总参数量高达3970亿,但推理时仅激活最相关的170亿参数,相比此前的万亿参数Qwen3-Max,部署显存占用降低60%,最大推理吞吐量提升至19倍 [33] - 智谱AI GLM-5:支持200K长上下文,其突破在于引领AI从Vibe Coding演进到Agentic Engineering,具备极强的全自动代码生成和复杂系统重构能力,能够在极少人工干预下自主完成跨越多个阶段的复杂任务 [34] OpenClaw生态与云端产品化趋势 - OpenClaw在年初迅速出圈,其核心是一套完整的结构化交互范式,用户通过一组可维护的文本文件持续塑造Agent的人格、偏好、工具配置与长期记忆 [21] - 围绕OpenClaw的扩展生态(如ClawHub技能库,包含5000+ skills)进一步放大了其吸引力 [20][21] - 月之暗面Kimi ClawMiniMax MaxClaw的主要贡献是将OpenClaw从本地极客玩具推向云端产品化,降低了普通用户的技术门槛 [21] - Kimi Claw基于Kimi K2.5模型,定价199元/月,MaxClaw基于MiniMax M2.5模型,定价39元/月 [20] - 当前阶段,云端Claw产品的实际体验差异更多来自产品策略和底层模型能力,而非Claw架构本身 [23] - 评测发现,当前OpenClaw生态在安全架构、权限确认机制、回滚和错误隔离等方面仍存在缺口,更像是一个被舆论放大的新交互范式演示,而非成熟的生产力基础设施 [24] - 安全测试案例显示,不同Claw产品在应对Prompt注入攻击时表现不一,底座模型的安全对齐和平台的结构化防护策略需同时建立以确保安全 [25][26][27]

榜单更新,字节Seed2.0表现亮眼,我们还测了爆火的龙虾 |xbench 月报 - Reportify