大语言模型评估

搜索文档
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
大语言模型学术检索能力评估 核心观点 - 北京大学DS-Lab发布首个评估大语言模型学术检索能力的数据集ScholarSearch,包含223道高难度学术问题,顶尖纯推理模型(如GPT-4.1、DeepSeek-R1)准确率普遍低于9% [1][15] - 具备搜索功能的模型比无搜索版本性能显著提升(如GPT-4o-mini准确率提升超4倍),但最先进的搜索增强型模型(GPT-4o-search-preview)准确率仅18.83% [2][3][15] - 当前模型在深度学术研究场景存在明显局限,需开发更强大的Deep Research模型 [4][16] 数据集构建方法 - 问题筛选采用双重负向标准:需同时无法被Grok 3 Thinking模式解答,且Grok 3 DeepSearch或Gemini 2.5 Pro Deep Research至少一个失败 [6] - 审核机制确保答案唯一性、来源可访问性和学术正确性,未达标问题需迭代修订 [7][8] - 问题来源于真实学术场景,覆盖15个细分学科(科学与工程+社会科学与人文学科) [11][12] 评估结果分析 - 纯推理模型无法应对学术查询复杂性,证明静态知识库存在局限性 [15] - 搜索能力使模型在科学与工程(18.2%准确率)与社会科学(19.5%准确率)领域表现趋于平衡 [15] - 现有模型在深度多源推理、专业知识整合方面存在技术差距,需突破复杂语境理解与批判性验证能力 [16]