xbench榜单更新!DeepSeek V3.2追平GPT-5.1|xbench月报
红杉汇·2025-12-05 08:06

xbench-ScienceQA榜单更新 - 最新一期xbench-ScienceQA榜单有6家公司发布新模型,Gemini 3 Pro刷新SOTA,DeepSeek V3.2分数追平GPT-5.1且性价比极高[1] - 榜单采用长青评估机制,持续汇报最新模型能力表现,未来将发布评估Agent指令遵循能力和多模态理解能力的新benchmark[1] 主要模型性能对比 - Gemini 3 Pro得分71.6,BoN(N=5)达85.0分,平均响应时间48.62秒,API价格为输入$2/百万tokens、输出$12/百万tokens[3] - DeepSeek-V3.2-Speciale得分62.6,BoN(N=5)达81.0分,与GPT-5.1持平,API价格仅为输入$0.28/百万tokens、输出$0.42/百万tokens[3] - GPT-5.1得分62.6,BoN(N=5)达78.0分,平均响应时间137.19秒,API价格为输入$1.25/百万tokens、输出$10/百万tokens[3] - Claude Opus 4.5得分55.2,平均响应时间仅13.31秒,为所有模型中最快[3] 成本效益分析 - 评测ScienceQA的500道题目,GPT-5.1花费$32,Gemini 3 Pro仅需$3,成本优势显著[6] - DeepSeek-V3.2-Speciale完成相同评测仅需$2,DeepSeek-V3.2-Thinking仅需$1.3,性价比远超GPT-5.1[6] - DeepSeek V3.2价格远低于GPT-5.1,成为Gemini 3外第二家BoN突破80分的公司[6] 技术架构创新 - DeepSeek V3.2引入DeepSeek Sparse Attention机制,在保持长上下文性能的同时显著降低计算复杂度[10] - 采用可扩展的强化学习框架,后训练算力投入提升至预训练成本的10%以上,通过改进GRPO算法增强模型推理能力[11] - 构建大规模Agent任务合成流水线,自动生成数千虚拟环境和数万条复杂指令,首创“思考融入工具使用”能力[12] 行业技术突破 - Gemini 3以1501 Elo成绩登顶LMArena排行榜,展现接近博士级的综合推理能力,深度融合文本、图像、视频、音频与代码的跨模态理解[13] - Kimi K2 Thinking支持200-300步连续工具调用的长程推理能力,采用高效稀疏MoE架构,1万亿参数仅激活32亿[18] - Tongyi DeepResearch在总参数30B激活参数3B的小模型上实现比肩闭源大模型的能力,验证了小模型在Agent领域可媲美大模型的效果[8][19] 模型性能提升 - Gemini 3 Pro较Gemini 2.5 Pro平均分从59.4提升到71.6,提升幅度达12.2分[6] - DeepSeek-V3.2-Speciale较DeepSeek-R1-0528有较大提升,达到62.6分[6] - Claude Opus 4.5较Claude Sonnet 4.5-Extended Thinking有小幅提升,达到55.2分[6]