ScholarQABench
搜索文档
Nature:首个能写综述论文的开源AI模型来了,大幅减少科研“幻觉”,堪比人类专家
生物世界· 2026-02-06 12:26
文章核心观点 - 华盛顿大学和艾伦人工智能研究所的研究团队在《自然》期刊发表了一项研究,推出了名为OpenScholar的AI科研助手,该工具旨在解决大语言模型在科研领域的“幻觉”问题,能够从4500万篇开放获取论文中检索信息,生成引用准确的科学综述,其性能在多项测试中超越了GPT-4o等主流模型[2][5] - OpenScholar是一个检索增强的语言模型,其核心创新在于构建了专用的开放数据存储和全开源架构,通过检索、生成和自反馈循环三步工作流程,确保输出内容的准确性和事实性[5][7][8][9] - 研究团队同时发布了首个大规模、多领域的科学文献合成基准ScholarQABench,用于严格评估AI的科研能力,OpenScholar在该基准测试中表现优异,尤其在引用准确性和多论文合成任务上大幅领先[12][13][16] - 尽管OpenScholar-8B模型的参数量仅为80亿,远小于GPT-4o,但在人类专家盲测中,其回答在50.8%的情况下被选中,优于GPT-4o的31.9%,显示出小模型在特定任务上的高效能和成本效益[16][17][18] OpenScholar的技术架构与工作流程 - 系统构建了一个包含4500万篇开放获取论文的专用数据存储,不依赖“黑箱”API,确保了透明度和可复现性[5][7] - 工作流程分为三步:首先从多来源智能检索相关论文段落,然后基于检索内容生成带引用的答案草案,最后通过自反馈循环迭代优化答案,确保事实性和覆盖范围[7][8][9] - 这种设计直接针对了当前AI在科学领域的痛点,例如研究显示,GPT-4o在78%-90%的情况下会编造计算机科学或生物医学等领域的近期文献引用,而OpenScholar的引用准确性堪比人类专家[11] ScholarQABench评估基准 - ScholarQABench是首个大规模、多领域的科学文献合成基准,包含近3000个由专家编写的问题,覆盖计算机科学、物理、神经科学和生物医学等领域[13] - 该基准要求模型生成长篇、多论文支持的答案,并引入了多维评估协议,包括自动指标和人类专家基于量表的评分,避免了AI“刷分”的可能[13][15] OpenScholar的性能表现 - 在ScholarQABench的测试中,OpenScholar-8B在多项任务中表现优异,例如在需要多论文合成的任务中,其正确率比GPT-4o高出6.1%,比PaperQA2高出5.5%[16][18] - 在引用准确性方面,OpenScholar的引用F1分数达到47.9%,而GPT-4o几乎为0[18] - 人类专家盲测结果显示,人类专家在50.8%的情况下选择了OpenScholar-8B的回答,在70.0%的情况下选择了OpenScholar-GPT-4o的回答,而选择GPT-4o回答的比例仅为31.9%,专家认为OpenScholar的回答更全面、信息深度更大[16][17] - 在细粒度评估中,OpenScholar-GPT-4o在组织性、覆盖范围和整体有用性上得分较高,整体有用性达到80.0%,相比GPT-4o的69.7%有显著提升[19] - 成本效益方面,使用高效检索管道的OpenScholar-8B,其处理每个问题的成本为0.003美元,低于基于GPT-4o的商业系统[17][18] 行业影响与未来展望 - OpenScholar的推出标志着AI在科学领域的应用迈出重要一步,有望将文献回顾从耗时的工作变为高效探索,降低科研门槛[21] - 该研究体现了开放科学的精神,研究团队全面开源了OpenScholar,为科研社区提供了透明、可复现的工具[5] - 未来,通过整合多模态学习和用户反馈,OpenScholar可能成为科研人员的真正“协作者”,让科研工作更聚焦于创新而非信息筛选[23]
助力降低AI引文幻觉提升准确率 新款开源语言模型与人类专家相仿
中国新闻网· 2026-02-05 15:28
开源AI模型OpenScholar的技术突破 - 研究人员开发出开源语言模型OpenScholar,其在准确文献综述方面可超越商用大语言模型[1] - 在实验中,GPT4o会在78%-90%的情况下出现引文幻觉,而OpenScholar的引文准确率与人类专家相仿[1] - OpenScholar是专为科研任务设计的检索增强语言模型,与一个包含4500万篇最新开放获取科研论文的专业数据库及自我评估机制相结合[4] OpenScholar的性能表现 - 研究显示,OpenScholar的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%[4] - OpenScholar生成的答案在50%到70%的情况下比专家注释器的答案更有用[4] - 这些研究结果和引文幻觉大幅下降,证明了OpenScholar有望支持和推动进一步研究工作[5] 科学文献综述的挑战与AI工具价值 - 科学文献发表数量的增长使研究人员很难掌握全部资讯,大语言模型可以提供协助,但容易出错,如归因能力有限和引文幻觉[4] - OpenScholar这一AI工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务[1] - 基于语言模型的系统无法使科学文献综述完全自动化,但OpenScholar和基准工具ScholarQABench已向学界开放以鼓励进一步研究和优化[5]
引文幻觉大幅下降的AI模型诞生
科技日报· 2026-02-05 07:03
文章核心观点 - 开源语言模型“OpenScholar”在科学文献综述任务中的准确性和可靠性超越了GPT4o等商用大语言模型,其引文准确率与人类专家相近,有望成为科研人员处理繁重文献工作的有效工具 [1][2] - 商用大语言模型在辅助科研时存在显著缺陷,例如引文幻觉问题突出,GPT4o在实验中会在78%至90%的情况下出现引文幻觉 [1] - “OpenScholar”的成功得益于其专为科研设计的检索增强生成框架、庞大的专业数据库以及自我评估机制,代表了科学工具向专业化、可信化发展的重要趋势 [1][3] 模型性能与比较 - 在专门评估文献综述自动化的基准“ScholarQABench”测试中,“OpenScholar”的准确率比GPT4o和文献综述工具PaperQA2分别高出6.1%和5.5% [2] - “OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用 [2] - “OpenScholar”的引文准确率与人类专家相近,显著降低了引文幻觉问题 [1] 技术架构与特点 - “OpenScholar”是一个专为科研任务设计的检索增强语言模型 [1] - 该模型与一个包含4500万篇最新开放获取科研论文的专业数据库相结合 [1] - 系统集成了自我评估机制以优化输出 [1] - 该工具是开源的,旨在鼓励学界共同研究和优化 [2] 行业背景与需求 - 科学文献综述对于循证决策、微调科学过程和引导新发现至关重要 [1] - 文献发表数量的快速增长使研究人员难以掌握全部资讯 [1] - 科研人员需要从海量信息中筛选有用论文,当前工具存在将错误信息与真实信息一同呈现的问题 [3] 现有工具的局限性 - 商用大语言模型在辅助科研时容易出错,存在归因能力有限和引文幻觉等问题 [1] - 基于语言模型的系统无法使科学文献综述完全自动化 [2] - 通用的“万能”工具(如GPT)网眼太大,可能捞取虚假或错误引文(“塑料珠子”),需要研究人员花费大量时间甄别且可能被误导 [3] 发展前景与意义 - “OpenScholar”有望支持和推动进一步的科学研究工作 [2] - 该工具旨在将科研人员从繁琐、易错的文献工作中部分解放出来,使其能将精力集中于真正的思考和发现 [3] - 这代表了科学工具走向可信化的重要一步 [3]