Workflow
ScienceQA最新榜单出炉!多家公司新模型分数均提升|xbench 月报
红杉汇·2025-09-22 08:27

xBench科学问题解答测评榜单更新 - 最新一期xBench双轨评估体系的科学问题解答测评集榜单显示,有6家公司的模型版本更新进入前10名,包括GPT-5-high、Qwen3-235B-A22B-Thinking-2507、Kimi K2 0905、GLM-4.5、Hunyuan-T1-20250711以及Claude Opus 4.1-Extended Thinking [1] - 各公司的新模型分数均有3-5分的小幅提升 [1] - 中文互联网深度搜索测评集正在进行题库升级,将于近期公布基于全新题库的榜单并对新题库进行开源 [1] 主要大语言模型性能对比 - 在ScienceQA测评集中,对来自16家公司的52个不同版本模型进行了测试 [8] - Grok-4以65.0的平均分和78.0的BoN分数位列第一,平均响应时间为227.24秒,API价格为输入3美元/百万tokens、输出15美元/百万tokens [3] - GPT-5-high以64.4的平均分和77.0的BoN分数排名第二,平均响应时间为149.91秒,API价格为输入1.25美元/百万tokens、输出10美元/百万tokens [3] - 前五名模型的BoN分数均在76-78分区间,前九名均在70分以上,显示模型能力上限的区分度在减小 [10] 重点公司模型更新与性能分析 - OpenAI GPT-5:平均分从o3-high的60.8提升至64.4,通过集成智能模式、深度推理与实时路由三大能力增强了稳定性和可靠性,在处理复杂问题时更高效且降低了错误率 [9][12] - 阿里巴巴Qwen3:最新思考模型平均分从45.4大幅提升至55.0,BoN分数从66提升至77,在多语言长尾知识覆盖和长文本处理能力上取得明显进步 [9][35] - Anthropic Claude Opus:4.1版本平均分从46.6提升至53.2,BoN分数从69小幅提升至72 [9] - Moonshot AI Kimi K2:作为唯一上榜的非思考模型,平均分提升至51.6,BoN分数74,在模型能力和响应速度间取得平衡,并支持256K上下文长度和60-100 Token/s的输出速度 [9][28] - 智谱GLM-4.5:采用混合专家架构,总参数3550亿,激活参数320亿,在TAU基准测试中得分70.1%,代理能力排名全球第二 [31] - 腾讯Hunyuan-T1:近期更新模型平均分44.4,BoN分数63 [9] - XAI Grok:从Grok-3-mini到Grok-4实现20多分的大幅提升,达到65分,成为当前最先进的模型 [9] 行业技术发展趋势 - 除Grok外,其他厂商每次发布新模型分数提升幅度为3-5分,且分数越高提升幅度越小,表明模型在前沿科学领域可能已进入瓶颈期 [9] - 高质量数据成为模型能力提升最紧迫的瓶颈,远超竞品的计算资源投入并未在分数上实现明显领先 [9] - 模型表达风格出现分化,例如GPT-5有意降低“谄媚”倾向,语言更简洁事实导向,以换取可靠性和一致性 [14] 新兴模型与技术框架 - Google Genie3:首个支持实时交互的通用世界模型,可从文本或图片生成可交互AI空间,帧率达24fps,具备极强的3D世界一致性,有望成为下一代训练平台 [29][30] - StepFun Step3:具备多模态能力和开源属性,通过Step3 MFA架构降低KV Cache内存消耗最高达90%,实现注意力与前馈网络解耦以提升解码吞吐量 [32] - 腾讯HunyuanWorld 1.0:融合2D与3D优势的世界生成框架,支持360°沉浸式体验和网格导出,可应用于虚拟现实、游戏开发和物理仿真等领域 [34] - OpenAI GPT-oss系列:包含120B和20B参数规模模型,采用Apache 2.0许可证允许商业应用,其中GPT-oss-120B性能接近o4-mini [27]