知识推理 - 财报，业绩电话会，研报，新闻

知识推理

搜索文档

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

量子位· 2025-03-04 12:51

大模型评测新基准SuperGPQA - 字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA，旨在解决传统评测基准的局限性 [2] - SuperGPQA覆盖285个研究生级学科，包含26,529道专业题目，远超现有GPQA（448题）和MMLU-Pro（12,032题）[3][10] - 该评测搭建工作耗时半年，近百位学界学者及名校硕博、业界工程师参与标注 [2] 传统评测基准的局限性 - 传统基准如MMLU和GPQA覆盖学科数量不足50个，无法涵盖人类积累的多样化和长尾知识 [8] - GPT-4o在MMLU-Pro上准确率达92.3%，导致评测体系失去区分度 [1][8] - 传统基准42%的问题来自维基百科，缺乏专业深度，易被模型通过记忆机制"破解" [8] SuperGPQA的创新特点 - 学科覆盖全面：覆盖13个门类、72个一级学科和285个二级学科 [10] - 题目设计更具挑战性：每题平均9.67个选项，比传统4选项格式难度更高 [10] - STEM领域问题占比77.2%，确保在复杂推理任务中的高效评估 [12] - 42.33%的问题需要数学计算或严谨推理，有效评估模型在高难度任务中的表现 [12] 数据构建和质量控制 - 采用专家标注、众包注释和大模型协同验证三重流程确保题目质量 [6] - 来源筛选阶段由专家从教科书、权威练习网站等可信来源收集原始问题 [13] - 质量检测阶段采用基于规则的初步过滤、基于LLM的质量检测和专家复审三层机制 [16] 模型表现评估 - 在涵盖51个模型的横向评测中，DeepSeek-R1以61.82%准确率登顶，但仍显著低于人类研究生水平（平均85%+）[4][20] - 推理模型（DeepSeek-R1、O1-2024-12-17）包揽前3，领先聊天模型超10个百分点 [24] - 豆包大模型（Doubao-1.5-pro）以55.09%准确率位列聊天模型第一，超越GPT-4o-2024-11-20（44.40%）[24] 行业影响和未来展望 - SuperGPQA的开源发布填补了行业在全面评估大模型能力方面的空白 [7][22] - 该评测基准的推出反映了行业对大模型能力评估标准提升的需求 [22] - 字节跳动通过SuperGPQA展示了其在基础研究工作上的投入和追求模型智能上限的决心 [22][23]