引文幻觉
搜索文档
助力降低AI引文幻觉提升准确率 新款开源语言模型与人类专家相仿
中国新闻网· 2026-02-05 15:28
开源AI模型OpenScholar的技术突破 - 研究人员开发出开源语言模型OpenScholar,其在准确文献综述方面可超越商用大语言模型[1] - 在实验中,GPT4o会在78%-90%的情况下出现引文幻觉,而OpenScholar的引文准确率与人类专家相仿[1] - OpenScholar是专为科研任务设计的检索增强语言模型,与一个包含4500万篇最新开放获取科研论文的专业数据库及自我评估机制相结合[4] OpenScholar的性能表现 - 研究显示,OpenScholar的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%[4] - OpenScholar生成的答案在50%到70%的情况下比专家注释器的答案更有用[4] - 这些研究结果和引文幻觉大幅下降,证明了OpenScholar有望支持和推动进一步研究工作[5] 科学文献综述的挑战与AI工具价值 - 科学文献发表数量的增长使研究人员很难掌握全部资讯,大语言模型可以提供协助,但容易出错,如归因能力有限和引文幻觉[4] - OpenScholar这一AI工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务[1] - 基于语言模型的系统无法使科学文献综述完全自动化,但OpenScholar和基准工具ScholarQABench已向学界开放以鼓励进一步研究和优化[5]
引文幻觉大幅下降的AI模型诞生
科技日报· 2026-02-05 07:03
文章核心观点 - 开源语言模型“OpenScholar”在科学文献综述任务中的准确性和可靠性超越了GPT4o等商用大语言模型,其引文准确率与人类专家相近,有望成为科研人员处理繁重文献工作的有效工具 [1][2] - 商用大语言模型在辅助科研时存在显著缺陷,例如引文幻觉问题突出,GPT4o在实验中会在78%至90%的情况下出现引文幻觉 [1] - “OpenScholar”的成功得益于其专为科研设计的检索增强生成框架、庞大的专业数据库以及自我评估机制,代表了科学工具向专业化、可信化发展的重要趋势 [1][3] 模型性能与比较 - 在专门评估文献综述自动化的基准“ScholarQABench”测试中,“OpenScholar”的准确率比GPT4o和文献综述工具PaperQA2分别高出6.1%和5.5% [2] - “OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用 [2] - “OpenScholar”的引文准确率与人类专家相近,显著降低了引文幻觉问题 [1] 技术架构与特点 - “OpenScholar”是一个专为科研任务设计的检索增强语言模型 [1] - 该模型与一个包含4500万篇最新开放获取科研论文的专业数据库相结合 [1] - 系统集成了自我评估机制以优化输出 [1] - 该工具是开源的,旨在鼓励学界共同研究和优化 [2] 行业背景与需求 - 科学文献综述对于循证决策、微调科学过程和引导新发现至关重要 [1] - 文献发表数量的快速增长使研究人员难以掌握全部资讯 [1] - 科研人员需要从海量信息中筛选有用论文,当前工具存在将错误信息与真实信息一同呈现的问题 [3] 现有工具的局限性 - 商用大语言模型在辅助科研时容易出错,存在归因能力有限和引文幻觉等问题 [1] - 基于语言模型的系统无法使科学文献综述完全自动化 [2] - 通用的“万能”工具(如GPT)网眼太大,可能捞取虚假或错误引文(“塑料珠子”),需要研究人员花费大量时间甄别且可能被误导 [3] 发展前景与意义 - “OpenScholar”有望支持和推动进一步的科学研究工作 [2] - 该工具旨在将科研人员从繁琐、易错的文献工作中部分解放出来,使其能将精力集中于真正的思考和发现 [3] - 这代表了科学工具走向可信化的重要一步 [3]