xbench榜单更新！DeepSeek V3.2追平GPT-5.1｜xbench月报

xbench-ScienceQA榜单更新 - 最新一期xbench-ScienceQA榜单有6家公司发布新模型，Gemini 3 Pro刷新SOTA，DeepSeek V3.2分数追平GPT-5.1且性价比极高[1] - 榜单采用长青评估机制，持续汇报最新模型能力表现，未来将发布评估Agent指令遵循能力和多模态理解能力的新benchmark[1] 主要模型性能对比 - Gemini 3 Pro得分71.6，BoN(N=5)达85.0分，平均响应时间48.62秒，API价格为输入$2/百万tokens、输出$12/百万tokens[3] - DeepSeek-V3.2-Speciale得分62.6，BoN(N=5)达81.0分，与GPT-5.1持平，API价格仅为输入$0.28/百万tokens、输出$0.42/百万tokens[3] - GPT-5.1得分62.6，BoN(N=5)达78.0分，平均响应时间137.19秒，API价格为输入$1.25/百万tokens、输出$10/百万tokens[3] - Claude Opus 4.5得分55.2，平均响应时间仅13.31秒，为所有模型中最快[3] 成本效益分析 - 评测ScienceQA的500道题目，GPT-5.1花费$32，Gemini 3 Pro仅需$3，成本优势显著[6] - DeepSeek-V3.2-Speciale完成相同评测仅需$2，DeepSeek-V3.2-Thinking仅需$1.3，性价比远超GPT-5.1[6] - DeepSeek V3.2价格远低于GPT-5.1，成为Gemini 3外第二家BoN突破80分的公司[6] 技术架构创新 - DeepSeek V3.2引入DeepSeek Sparse Attention机制，在保持长上下文性能的同时显著降低计算复杂度[10] - 采用可扩展的强化学习框架，后训练算力投入提升至预训练成本的10%以上，通过改进GRPO算法增强模型推理能力[11] - 构建大规模Agent任务合成流水线，自动生成数千虚拟环境和数万条复杂指令，首创“思考融入工具使用”能力[12] 行业技术突破 - Gemini 3以1501 Elo成绩登顶LMArena排行榜，展现接近博士级的综合推理能力，深度融合文本、图像、视频、音频与代码的跨模态理解[13] - Kimi K2 Thinking支持200-300步连续工具调用的长程推理能力，采用高效稀疏MoE架构，1万亿参数仅激活32亿[18] - Tongyi DeepResearch在总参数30B激活参数3B的小模型上实现比肩闭源大模型的能力，验证了小模型在Agent领域可媲美大模型的效果[8][19] 模型性能提升 - Gemini 3 Pro较Gemini 2.5 Pro平均分从59.4提升到71.6，提升幅度达12.2分[6] - DeepSeek-V3.2-Speciale较DeepSeek-R1-0528有较大提升，达到62.6分[6] - Claude Opus 4.5较Claude Sonnet 4.5-Extended Thinking有小幅提升，达到55.2分[6]