知识推理

搜索文档
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
量子位· 2025-03-04 12:51
大模型评测新基准SuperGPQA - 字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决传统评测基准的局限性 [2] - SuperGPQA覆盖285个研究生级学科,包含26,529道专业题目,远超现有GPQA(448题)和MMLU-Pro(12,032题)[3][10] - 该评测搭建工作耗时半年,近百位学界学者及名校硕博、业界工程师参与标注 [2] 传统评测基准的局限性 - 传统基准如MMLU和GPQA覆盖学科数量不足50个,无法涵盖人类积累的多样化和长尾知识 [8] - GPT-4o在MMLU-Pro上准确率达92.3%,导致评测体系失去区分度 [1][8] - 传统基准42%的问题来自维基百科,缺乏专业深度,易被模型通过记忆机制"破解" [8] SuperGPQA的创新特点 - 学科覆盖全面:覆盖13个门类、72个一级学科和285个二级学科 [10] - 题目设计更具挑战性:每题平均9.67个选项,比传统4选项格式难度更高 [10] - STEM领域问题占比77.2%,确保在复杂推理任务中的高效评估 [12] - 42.33%的问题需要数学计算或严谨推理,有效评估模型在高难度任务中的表现 [12] 数据构建和质量控制 - 采用专家标注、众包注释和大模型协同验证三重流程确保题目质量 [6] - 来源筛选阶段由专家从教科书、权威练习网站等可信来源收集原始问题 [13] - 质量检测阶段采用基于规则的初步过滤、基于LLM的质量检测和专家复审三层机制 [16] 模型表现评估 - 在涵盖51个模型的横向评测中,DeepSeek-R1以61.82%准确率登顶,但仍显著低于人类研究生水平(平均85%+)[4][20] - 推理模型(DeepSeek-R1、O1-2024-12-17)包揽前3,领先聊天模型超10个百分点 [24] - 豆包大模型(Doubao-1.5-pro)以55.09%准确率位列聊天模型第一,超越GPT-4o-2024-11-20(44.40%)[24] 行业影响和未来展望 - SuperGPQA的开源发布填补了行业在全面评估大模型能力方面的空白 [7][22] - 该评测基准的推出反映了行业对大模型能力评估标准提升的需求 [22] - 字节跳动通过SuperGPQA展示了其在基础研究工作上的投入和追求模型智能上限的决心 [22][23]