Workflow
开源语言模型
icon
搜索文档
助力降低AI引文幻觉提升准确率 新款开源语言模型与人类专家相仿
中国新闻网· 2026-02-05 15:28
开源AI模型OpenScholar的技术突破 - 研究人员开发出开源语言模型OpenScholar,其在准确文献综述方面可超越商用大语言模型[1] - 在实验中,GPT4o会在78%-90%的情况下出现引文幻觉,而OpenScholar的引文准确率与人类专家相仿[1] - OpenScholar是专为科研任务设计的检索增强语言模型,与一个包含4500万篇最新开放获取科研论文的专业数据库及自我评估机制相结合[4] OpenScholar的性能表现 - 研究显示,OpenScholar的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%[4] - OpenScholar生成的答案在50%到70%的情况下比专家注释器的答案更有用[4] - 这些研究结果和引文幻觉大幅下降,证明了OpenScholar有望支持和推动进一步研究工作[5] 科学文献综述的挑战与AI工具价值 - 科学文献发表数量的增长使研究人员很难掌握全部资讯,大语言模型可以提供协助,但容易出错,如归因能力有限和引文幻觉[4] - OpenScholar这一AI工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务[1] - 基于语言模型的系统无法使科学文献综述完全自动化,但OpenScholar和基准工具ScholarQABench已向学界开放以鼓励进一步研究和优化[5]
引文幻觉大幅下降的AI模型诞生
科技日报· 2026-02-05 07:03
文章核心观点 - 开源语言模型“OpenScholar”在科学文献综述任务中的准确性和可靠性超越了GPT4o等商用大语言模型,其引文准确率与人类专家相近,有望成为科研人员处理繁重文献工作的有效工具 [1][2] - 商用大语言模型在辅助科研时存在显著缺陷,例如引文幻觉问题突出,GPT4o在实验中会在78%至90%的情况下出现引文幻觉 [1] - “OpenScholar”的成功得益于其专为科研设计的检索增强生成框架、庞大的专业数据库以及自我评估机制,代表了科学工具向专业化、可信化发展的重要趋势 [1][3] 模型性能与比较 - 在专门评估文献综述自动化的基准“ScholarQABench”测试中,“OpenScholar”的准确率比GPT4o和文献综述工具PaperQA2分别高出6.1%和5.5% [2] - “OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用 [2] - “OpenScholar”的引文准确率与人类专家相近,显著降低了引文幻觉问题 [1] 技术架构与特点 - “OpenScholar”是一个专为科研任务设计的检索增强语言模型 [1] - 该模型与一个包含4500万篇最新开放获取科研论文的专业数据库相结合 [1] - 系统集成了自我评估机制以优化输出 [1] - 该工具是开源的,旨在鼓励学界共同研究和优化 [2] 行业背景与需求 - 科学文献综述对于循证决策、微调科学过程和引导新发现至关重要 [1] - 文献发表数量的快速增长使研究人员难以掌握全部资讯 [1] - 科研人员需要从海量信息中筛选有用论文,当前工具存在将错误信息与真实信息一同呈现的问题 [3] 现有工具的局限性 - 商用大语言模型在辅助科研时容易出错,存在归因能力有限和引文幻觉等问题 [1] - 基于语言模型的系统无法使科学文献综述完全自动化 [2] - 通用的“万能”工具(如GPT)网眼太大,可能捞取虚假或错误引文(“塑料珠子”),需要研究人员花费大量时间甄别且可能被误导 [3] 发展前景与意义 - “OpenScholar”有望支持和推动进一步的科学研究工作 [2] - 该工具旨在将科研人员从繁琐、易错的文献工作中部分解放出来,使其能将精力集中于真正的思考和发现 [3] - 这代表了科学工具走向可信化的重要一步 [3]
24小时环球政经要闻全览 | 7月25日
搜狐财经· 2025-07-25 08:17
全球股市表现 - 道琼斯工业平均指数下跌316.38点至44693.91点,跌幅0.70% [2] - 纳斯达克指数上涨37.95点至21057.96点,涨幅0.18% [2] - 标普500指数微涨4.44点至6363.35点,涨幅0.07% [2] - 欧洲斯托克50指数上涨10.95点至5355.2点,涨幅0.20% [2] - 英国富时100指数上涨76.88点至9138.37点,涨幅0.85% [2] - 法国CAC40指数下跌32.15点至7818.28点,跌幅0.41% [2] - 德国DAX指数上涨55.11点至24295.93点,涨幅0.23% [2] - 俄罗斯RTS指数下跌19.37点至1121.55点,跌幅1.70% [2] - 上证指数上涨23.43点至3605.73点,涨幅0.65% [2] - 深证成指上涨134.02点至11193.06点,涨幅1.21% [2] - 创业板指上涨34.7点至2345.37点,涨幅1.50% [2] - 恒生指数上涨129.11点至25667.18点,涨幅0.51% [2] - 恒生国企指数上涨16.42点至9257.62点,涨幅0.18% [2] - 恒生科技指数下跌2.74点至5743点,跌幅0.05% [2] - 台湾加权指数上涨55.06点至23373.73点,涨幅0.24% [2] - 日经225指数上涨655.02点至41826.34点,涨幅1.59% [2] - 韩国KOSPI指数上涨6.68点至3190.45点,涨幅0.21% [2] - 印度孟买Sensex指数下跌542.47点至82184.17点,跌幅0.66% [2] - 越南VNINDEX指数上涨8.44点至1520.75点,涨幅0.56% [2] 美联储动态 - 特朗普视察美联储时表示与鲍威尔"没有紧张关系",认为没有必要解雇美联储主席 [3] - 特朗普强调降息是更紧迫的问题,希望鲍威尔能够降息 [4] 美日贸易关系 - 美国计划对日本进口商品征收15%基准关税,可能于8月1日生效 [4] - 日本在美国的5500亿美元投资承诺存在不明确之处,其中90%利润将流向美国 [4] - 5500亿美元投资框架包括政府支持的金融机构投资、贷款和贷款担保 [4] 欧洲央行政策 - 欧洲央行维持利率不变,对欧元区经济做出略微乐观评估 [5] - 欧洲央行行长拉加德表示经济处于"良好状态",增长符合预期或"略有好转" [6] - 市场减少对9月降息的押注,预计今年降息18个基点 [7] - Commerzbank预计欧洲央行存款利率将维持在2.0%不变至2026年 [7] OpenAI发展 - OpenAI计划8月初推出GPT-5,同时推出API适用的mini和nano版本 [7] - 7月底前将发布开源语言模型"类似o3 mini",具备推理能力 [8] - 这将是自2019年GPT-2以来OpenAI首次公开权重模型 [8] 特斯拉投资 - 特斯拉数字资产价值从7.22亿美元增至12.4亿美元 [9] - 特斯拉在2022年出售75%比特币持仓,错失数十亿美元收益机会 [9] - 比特币价格过去一年上涨80%,接近历史最高水平 [9] 英特尔财报 - 英特尔第二季度营收128.6亿美元,同比增长0.2% [10] - 净利润亏损29.2亿美元,上年同期亏损16.1亿美元 [10] - 调整后每股亏损0.1美元,上年同期每股纯益0.02美元 [10] - 预计第三季度营收126-136亿美元 [11] - 计划裁员15%,从96,400人减至75,000人,较2024年底减少22% [12]