Workflow
Gemini Deep Research
icon
搜索文档
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 22:11
北京大学DS-Lab团队 投稿 量子位 | 公众号 QbitAI 北京大学DS-Lab 发布 ScholarSearch, 旨在对LLMs的检索、信息整合及推理能力进行综合性、极限性考验。 研究团队招募了来自北京大学各个学院的本科和研究生志愿者,并为他们提供了集中培训。志愿者从公开可访问的在线出版物和网站中选择材 料,以制定需要网络搜索解答的学术问题。 LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学 术检索题目及其答案。 它对具备联网搜索能力的代表性模型及纯推理模型进行了评估,结果显示,顶尖的纯推理模型,如GPT-4.1、DeepSeek-R1,在处理这些问 题时准确率普遍低于9%。 具备搜索功能的模型,相较于其无搜索能力的版本,准确率有显著提升,例如,GPT-4o-mini的准确率提升超过四倍。 尽管浏览能力带来了显著改进,但即便是最先进的搜索增强型模型,如 GPT-4o-search-preview,其准确率仅为18.83% 。 方法 Ope ...