ScienceQA最新榜单出炉！多家公司新模型分数均提升｜xbench 月报

xBench科学问题解答测评榜单更新 - 最新一期xBench双轨评估体系的科学问题解答测评集榜单显示，有6家公司的模型版本更新进入前10名，包括GPT-5-high、Qwen3-235B-A22B-Thinking-2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking [1] - 各公司的新模型分数均有3-5分的小幅提升 [1] - 中文互联网深度搜索测评集正在进行题库升级，将于近期公布基于全新题库的榜单并对新题库进行开源 [1] 主要大语言模型性能对比 - 在ScienceQA测评集中，对来自16家公司的52个不同版本模型进行了测试 [8] - Grok-4以65.0的平均分和78.0的BoN分数位列第一，平均响应时间为227.24秒，API价格为输入3美元/百万tokens、输出15美元/百万tokens [3] - GPT-5-high以64.4的平均分和77.0的BoN分数排名第二，平均响应时间为149.91秒，API价格为输入1.25美元/百万tokens、输出10美元/百万tokens [3] - 前五名模型的BoN分数均在76-78分区间，前九名均在70分以上，显示模型能力上限的区分度在减小 [10] 重点公司模型更新与性能分析 - OpenAI GPT-5：平均分从o3-high的60.8提升至64.4，通过集成智能模式、深度推理与实时路由三大能力增强了稳定性和可靠性，在处理复杂问题时更高效且降低了错误率 [9][12] - 阿里巴巴Qwen3：最新思考模型平均分从45.4大幅提升至55.0，BoN分数从66提升至77，在多语言长尾知识覆盖和长文本处理能力上取得明显进步 [9][35] - Anthropic Claude Opus：4.1版本平均分从46.6提升至53.2，BoN分数从69小幅提升至72 [9] - Moonshot AI Kimi K2：作为唯一上榜的非思考模型，平均分提升至51.6，BoN分数74，在模型能力和响应速度间取得平衡，并支持256K上下文长度和60-100 Token/s的输出速度 [9][28] - 智谱GLM-4.5：采用混合专家架构，总参数3550亿，激活参数320亿，在TAU基准测试中得分70.1%，代理能力排名全球第二 [31] - 腾讯Hunyuan-T1：近期更新模型平均分44.4，BoN分数63 [9] - XAI Grok：从Grok-3-mini到Grok-4实现20多分的大幅提升，达到65分，成为当前最先进的模型 [9] 行业技术发展趋势 - 除Grok外，其他厂商每次发布新模型分数提升幅度为3-5分，且分数越高提升幅度越小，表明模型在前沿科学领域可能已进入瓶颈期 [9] - 高质量数据成为模型能力提升最紧迫的瓶颈，远超竞品的计算资源投入并未在分数上实现明显领先 [9] - 模型表达风格出现分化，例如GPT-5有意降低“谄媚”倾向，语言更简洁事实导向，以换取可靠性和一致性 [14] 新兴模型与技术框架 - Google Genie3：首个支持实时交互的通用世界模型，可从文本或图片生成可交互AI空间，帧率达24fps，具备极强的3D世界一致性，有望成为下一代训练平台 [29][30] - StepFun Step3：具备多模态能力和开源属性，通过Step3 MFA架构降低KV Cache内存消耗最高达90%，实现注意力与前馈网络解耦以提升解码吞吐量 [32] - 腾讯HunyuanWorld 1.0：融合2D与3D优势的世界生成框架，支持360°沉浸式体验和网格导出，可应用于虚拟现实、游戏开发和物理仿真等领域 [34] - OpenAI GPT-oss系列：包含120B和20B参数规模模型，采用Apache 2.0许可证允许商业应用，其中GPT-oss-120B性能接近o4-mini [27]