Workflow
OpenScholar
icon
搜索文档
Nature认定的论文综述神器来了
量子位· 2026-02-07 12:22
核心观点 - 艾伦人工智能研究所与华盛顿大学联合开源了名为OpenScholar的AI系统,该系统通过接入庞大的真实科学论文数据库并采用检索增强生成与自我反馈推理技术,从根本上解决了大语言模型在撰写学术文献综述时产生虚假引用的问题,其性能在多项测试中超越了包括GPT-4o在内的通用模型,并在部分评估中达到甚至超过了人类专家水平 [2][5][6][9][12][16][18] 技术原理与架构 - **核心问题识别**:通用大语言模型基于概率预测生成文本,在回答生僻学术问题时,为维持语言连贯性,会拼凑不存在的论文、期刊和作者信息,产生“幻觉”引用,虚假引用率高达78%-90% [5][6][7] - **解决方案**:OpenScholar不再单纯预测下一个词,而是接入名为ScholarStore的庞大数据库,该数据库包含4500万篇科学论文的全文和摘要,是目前公开的最大科学领域段落索引,全开源且可本地部署 [9][10][11] - **工作流程**:采用检索增强生成技术,通过一个包含2.37亿个向量嵌入的数据库进行检索,生成初稿后,系统会进行自我审查,根据“引文不准”等反馈再次检索和修正,形成“搜索-生成-审查-修正”的闭环,确保每个知识点都有真实论文支撑 [12] - **附加价值**:该技术管道还能生成高质量合成数据,用于反哺模型训练 [13] 性能表现 - **基准测试**:在涵盖计算机科学、物理、生物医药等领域的Scholar QABench测试集上,OpenScholar-8B模型在答案正确性上比GPT-4o高出5%,比专业的PaperQA2高出7%,其引文准确度与人类专家持平 [16] - **具体数据**:在单篇论文性能测试中,OpenScholar-8B在“Pub”任务上的正确性为76.4%,引文准确度为68.9%;在多篇论文性能测试的“Multi”任务上,其引文准确度为42.8% [17] - **人机双盲实验**:16位专家盲评108份答案,OpenScholar-8B生成的答案有51%被认为优于人类研究者所写,而结合了OpenScholar技术的GPT-4o版本胜率达到70%,普通GPT-4o的胜率仅为32% [18] - **专家反馈**:评审认为OpenScholar的优势在于信息覆盖更全面、结构更清晰、逻辑连贯性更强,具有更高的实用价值 [19] 成本与效率 - **成本对比**:根据测试数据,处理每个问题的成本,OpenScholar-8B为0.003美元,OpenScholar-70B为0.01美元,而PaperQA2的成本在0.3至2.3美元之间 [17] - **效率体现**:在控制成本的同时,模型实现了引文准确度的显著提升,例如Llama3-8B模型在接入OpenScholar数据系统后,在“Pub”任务上的引文准确度从0%提升至63.9% [17] 团队背景 - **核心成员**:论文一作Akari Asai是艾伦人工智能研究所的研究科学家,将于2026年秋季担任卡内基梅隆大学助理教授,拥有东京大学学士学位和华盛顿大学博士学位,专注于自然语言处理与大型语言模型研究 [20] - **团队构成**:其他作者包括华盛顿大学博士生Jacqueline He、Rulin Shao等,团队成员还来自伊利诺伊大学厄巴纳-香槟分校、卡内基梅隆大学、Meta、斯坦福大学等多所顶尖高校和研究机构 [21][22][23]
Nature:首个能写综述论文的开源AI模型来了,大幅减少科研“幻觉”,堪比人类专家
生物世界· 2026-02-06 12:26
文章核心观点 - 华盛顿大学和艾伦人工智能研究所的研究团队在《自然》期刊发表了一项研究,推出了名为OpenScholar的AI科研助手,该工具旨在解决大语言模型在科研领域的“幻觉”问题,能够从4500万篇开放获取论文中检索信息,生成引用准确的科学综述,其性能在多项测试中超越了GPT-4o等主流模型[2][5] - OpenScholar是一个检索增强的语言模型,其核心创新在于构建了专用的开放数据存储和全开源架构,通过检索、生成和自反馈循环三步工作流程,确保输出内容的准确性和事实性[5][7][8][9] - 研究团队同时发布了首个大规模、多领域的科学文献合成基准ScholarQABench,用于严格评估AI的科研能力,OpenScholar在该基准测试中表现优异,尤其在引用准确性和多论文合成任务上大幅领先[12][13][16] - 尽管OpenScholar-8B模型的参数量仅为80亿,远小于GPT-4o,但在人类专家盲测中,其回答在50.8%的情况下被选中,优于GPT-4o的31.9%,显示出小模型在特定任务上的高效能和成本效益[16][17][18] OpenScholar的技术架构与工作流程 - 系统构建了一个包含4500万篇开放获取论文的专用数据存储,不依赖“黑箱”API,确保了透明度和可复现性[5][7] - 工作流程分为三步:首先从多来源智能检索相关论文段落,然后基于检索内容生成带引用的答案草案,最后通过自反馈循环迭代优化答案,确保事实性和覆盖范围[7][8][9] - 这种设计直接针对了当前AI在科学领域的痛点,例如研究显示,GPT-4o在78%-90%的情况下会编造计算机科学或生物医学等领域的近期文献引用,而OpenScholar的引用准确性堪比人类专家[11] ScholarQABench评估基准 - ScholarQABench是首个大规模、多领域的科学文献合成基准,包含近3000个由专家编写的问题,覆盖计算机科学、物理、神经科学和生物医学等领域[13] - 该基准要求模型生成长篇、多论文支持的答案,并引入了多维评估协议,包括自动指标和人类专家基于量表的评分,避免了AI“刷分”的可能[13][15] OpenScholar的性能表现 - 在ScholarQABench的测试中,OpenScholar-8B在多项任务中表现优异,例如在需要多论文合成的任务中,其正确率比GPT-4o高出6.1%,比PaperQA2高出5.5%[16][18] - 在引用准确性方面,OpenScholar的引用F1分数达到47.9%,而GPT-4o几乎为0[18] - 人类专家盲测结果显示,人类专家在50.8%的情况下选择了OpenScholar-8B的回答,在70.0%的情况下选择了OpenScholar-GPT-4o的回答,而选择GPT-4o回答的比例仅为31.9%,专家认为OpenScholar的回答更全面、信息深度更大[16][17] - 在细粒度评估中,OpenScholar-GPT-4o在组织性、覆盖范围和整体有用性上得分较高,整体有用性达到80.0%,相比GPT-4o的69.7%有显著提升[19] - 成本效益方面,使用高效检索管道的OpenScholar-8B,其处理每个问题的成本为0.003美元,低于基于GPT-4o的商业系统[17][18] 行业影响与未来展望 - OpenScholar的推出标志着AI在科学领域的应用迈出重要一步,有望将文献回顾从耗时的工作变为高效探索,降低科研门槛[21] - 该研究体现了开放科学的精神,研究团队全面开源了OpenScholar,为科研社区提供了透明、可复现的工具[5] - 未来,通过整合多模态学习和用户反馈,OpenScholar可能成为科研人员的真正“协作者”,让科研工作更聚焦于创新而非信息筛选[23]
【太平洋科技-每日观点&资讯】(2026-02-06)
远峰电子· 2026-02-05 21:03
文章核心观点 文章汇总了近期科技与半导体产业的多维度动态,涵盖市场表现、国内外公司新闻、AI技术进展、“十五五”前瞻产业追踪以及关键原材料价格数据,整体描绘了行业在技术创新、供应链变化及市场趋势方面的最新图景 [1][2][3][4][7][8] 市场指数与板块表现 - 主要股指普遍下跌,上证指数下跌0.64%,深证成指下跌1.44%,科创50下跌1.44%,创业板指下跌1.55%,北证50下跌2.03% [1] - TMT板块内部分化,影视动漫制作板块领涨,涨幅达3.70%,品牌消费电子板块上涨2.10%,安防设备板块上涨0.86% [1] - 通信线缆及配套板块领跌,跌幅达5.86%,其他电子Ⅲ板块下跌3.27%,通信网络设备及器件板块下跌2.57% [1] 国内新闻 - **半导体设备**:天虹科技完成全球首台310×310mm面板级封装PLP PVD设备交机,随着晶圆大厂将面板级封装尺寸定调为该规格,设备需求浮现,公司提前卡位PLP PVD与Descum关键制程 [1] - **芯片发布**:沐创发布全新100G智能网络安全芯片RSP-S30,其内置64核可编程处理器和硬件加速引擎带来的密码加速能力较N10C提升了3倍以上,专注于数据中心、云计算及网络安全设备等应用场景 [1] - **生产事故影响**:颀中科技苏州凸块产线因火灾暂时停产,订单交付能力阶段性下降,预计7月份实现复产,预计2026年度营业收入将较年初制定的财务预算增长幅度减少5至8个百分点 [1] - **手机芯片业务**:联发科表示2025年手机业务营收突破100亿美元,创历史新高,同比增长8%,其中旗舰级芯片贡献30亿美元营收,但预计存储芯片及整体成本上扬将冲击智能手机终端需求,2026年第一季度手机业务营收恐明显下滑 [1] 海外新闻 - **新型显示技术**:韩国开发出一种新型非破坏性光刻技术,无需使用光刻胶及复杂的配体交换过程即可实现量子点的精密微细图案化,可满足AR/VR所需的超高分辨率及高可靠性微型显示器的制造需求 [2] - **芯片短缺影响**:高通预计第二财季营收在102亿至110亿美元之间,业绩指引不及预期的直接原因是全球存储芯片短缺,数据中心存储需求旺盛挤占了消费电子设备所需内存的产能,高通已观察到多家厂商正在采取行动减少手机生产计划并清理渠道库存 [2] - **功率半导体涨价**:英飞凌正式通知客户,鉴于功率开关及相关IC产品供给持续紧张,叠加原物料与基础设施成本攀升,公司将自2026年4月起对部分产品价格进行调整 [2] - **智能手机市场**:2025年第四季度全球智能手机市场收入同比增长13%,达到1,430亿美元,创单季度历史新高,同时平均售价同比增长8%,首次在单季度内突破400美元 [2] AI资讯 - **大模型开源**:上海AI实验室开源万亿参数科学大模型Intern-S1-Pro,采用MoE架构,总参数1万亿,单次推理仅激活220亿参数,自研SAGE架构并搭配傅里叶位置编码等技术强化物理过程与时序仿真建模能力 [3] - **通用大模型发布**:字节跳动正式发布“豆包4.0”通用AI大模型,在文本、图像、音频、视频生成方面实现全方位升级,可精准适配12个主流行业场景,具备实时学习能力,能根据用户反馈自主优化输出结果 [3] - **学术AI模型**:华盛顿大学与艾伦人工智能研究所推出开源模型OpenScholar,其引用准确率与人类专家持平,在盲评中51%的科学家更偏爱其生成的引用内容,旨在解决AI在学术研究中的“引文幻觉”问题 [3] - **AI创作服务**:Adobe宣布Firefly平台向付费订阅用户开放无限AI图像与视频生成服务,提供对Google、OpenAI、Runway及Adobe自有AI模型的无限制访问,覆盖全平台 [3] “十五五”行业追踪 - **深空经济**:天兵科技酒泉卫星测发技术厂房顺利通过预验收评审,投用后可将单箭发射效率提升100%,组网成本降低30%以上,保障每年60次以上的高频发射能力,推进低轨卫星星座建设 [4] - **具身智能**:法拉第未来发布三大系列EAI机器人,包括全尺寸职业型人形机器人Futurist系列、运动型人形机器人Master系列以及安防和陪伴型四足机器人Aegis系列 [4] - **脑机接口**:中国团队利用自主研发的超声诊疗一体化装置“UltraBrainPad”,成功实现对胶质母细胞瘤患者血脑屏障的无创打开,该技术仅需3分钟即可精准定位并短暂开启血脑屏障,使化疗药物在肿瘤区域的浓度提升8倍 [4] - **新材料**:旭化成公司宣布成功研制新型无PFAS聚酰胺材料,专为严苛低摩擦应用而开发,具有优异的低摩擦和滑动特性,能在高负荷和高温条件下保持稳定性能 [4] 关键原材料价格 - **DRAM颗粒现货价格**:02月05日,DDR5 16G (2G×8) 4800/5600盘平均价为37.933美元,日跌幅0.09%;DDR4 16Gb (2G×8) 3200盘平均价为76.949美元,日跌幅0.18%;DDR3 4Gb 512M×8 1600/1866盘平均价为5.480美元,日涨幅0.22% [7] - **半导体材料价格**:02月05日,百川盈孚监测的多种高纯金属及晶片衬底价格保持稳定,无日度变化,例如7N高纯锌粒市场均价为2,120元/千克,导电N型6寸P级单晶碳化硅衬底市场均价为5,550元/片,半绝缘6寸P级单晶碳化硅衬底市场均价为10,800元/片 [8]
Nature和Science同时报道了一篇论文,试图根治AI幻觉
36氪· 2026-02-05 20:24
模型架构与性能突破 - 开源模型OpenScholar仅拥有80亿参数,在科学文献综述任务上击败了旗舰模型,标志着从依赖参数记忆到依赖外部知识库精准调用的范式转移[1][4] - OpenScholar通过外接一个包含4500万篇开放获取论文的数据库,采用“检索-重排序-生成与反馈”的严密流程来根治幻觉问题,其自我审查机制确保每条论述都有文献背书[5] - 在ScholarQABench基准测试中,OpenScholar-8B不仅正确率超越当时的旗舰模型,更将推理成本降低两个数量级至约0.003美元/次[6] - 性能数据显示,OpenScholar-8B在单篇论文任务上的多项正确率(Corr)和引用率(Cite)指标均显著优于同等参数规模的Llama3-8B,甚至在某些任务上接近或超越700亿参数的大模型[7] 技术演进与深度研究能力 - 迭代版本DR Tulu针对长篇幅、多维度的深度研究任务,其核心突破在于引入了“演化评分规则的强化学习”,使模型能动态生成针对当前问题的评分细则[9] - DR Tulu具备更强的研究规划能力,能像成熟研究员一样制定大纲、分头检索并综合多源信息撰写长篇报告,其8B参数版本的表现已可媲美当时的旗舰专有模型[9][10] - 该系列模型代码和权重完全开源,旨在打破科技巨头对顶级科研AI工具的垄断,推动研究工具的民主化[15] 行业影响与意义 - 该研究证明在特定领域,一个连接了大型知识库的小模型,比一个参数庞大但可能产生幻觉的大模型更可靠,挑战了行业对模型参数的盲目崇拜[4][8] - 研究主导者Akari Asai是检索增强生成领域的活跃研究者,其哲学是让模型学会拥抱外部世界而非死记硬背,这一理念正通过其开源工作影响行业[15] - 该技术方向将AI从参数竞赛中解放出来,赋予其查阅、验证和反思的能力,有望成为科学家在浩瀚知识海洋中进行研究的强大助手[16]
助力降低AI引文幻觉提升准确率 新款开源语言模型与人类专家相仿
中国新闻网· 2026-02-05 15:28
开源AI模型OpenScholar的技术突破 - 研究人员开发出开源语言模型OpenScholar,其在准确文献综述方面可超越商用大语言模型[1] - 在实验中,GPT4o会在78%-90%的情况下出现引文幻觉,而OpenScholar的引文准确率与人类专家相仿[1] - OpenScholar是专为科研任务设计的检索增强语言模型,与一个包含4500万篇最新开放获取科研论文的专业数据库及自我评估机制相结合[4] OpenScholar的性能表现 - 研究显示,OpenScholar的准确率比GPT4o和PaperQA2这类现有系统分别高出6.1%和5.5%[4] - OpenScholar生成的答案在50%到70%的情况下比专家注释器的答案更有用[4] - 这些研究结果和引文幻觉大幅下降,证明了OpenScholar有望支持和推动进一步研究工作[5] 科学文献综述的挑战与AI工具价值 - 科学文献发表数量的增长使研究人员很难掌握全部资讯,大语言模型可以提供协助,但容易出错,如归因能力有限和引文幻觉[4] - OpenScholar这一AI工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务[1] - 基于语言模型的系统无法使科学文献综述完全自动化,但OpenScholar和基准工具ScholarQABench已向学界开放以鼓励进一步研究和优化[5]
连续三日净流入超亿元,科创人工智能ETF华夏(589010)低位盘整
每日经济新闻· 2026-02-05 11:37
科创人工智能ETF华夏(589010)市场表现 - 该ETF开盘下探后低位盘整,最新价报1.510元,较开盘价下跌2.202% [1] - 其跟踪的30只成分股中27只下跌,芯原股份跌超6%,凌云光、云天励飞、天准科技跌幅居前,石头科技、新点软件、恒玄科技上涨形成支撑 [1] - 该ETF成交额达4128万元,换手率1.65%,成交活跃度维持高位,且连续三日资金净流入超亿元,显示资金低位布局意愿强烈 [1] 人工智能行业动态与趋势 - 开源语言模型“OpenScholar”诞生,其文献综述能力超越商用大语言模型,引文准确率与人类专家相近,实验中GPT4o引文幻觉出现率达78%至90% [1] - 通用及垂直领域Agent渗透加速、融资活跃,相关企业已推出办公场景产品,未来将向多智能体协同、执行边界突破、大厂与独立厂商共存三大趋势演进 [2] - 持续看好Agent对AI产业链的带动作用 [2] 科创人工智能ETF华夏(589010)产品特征 - 该ETF紧密跟踪上证科创板人工智能指数,覆盖全产业链优质企业 [2] - 该指数成分股兼具高研发投入与政策红利支持 [2] - 该ETF具备20%涨跌幅与中小盘弹性,有助于捕捉AI产业“奇点时刻” [2]
刚刚,全球首个完全开放科学文献综述AI,登上Nature
36氪· 2026-02-05 10:24
产品发布与定位 - 华盛顿大学与艾伦人工智能研究所主导研发了全球首个专为科学研究设计的全开源检索增强生成语言模型OpenScholar [1] - 该产品于2月4日在《自然》期刊上发布,旨在帮助科学家处理复杂且繁重的科学文献综述任务 [1] 技术架构与创新 - 系统整合了4500万篇开放获取论文和2.36亿个段落嵌入向量,构建了专属知识库OSDS [3][4] - 核心技术包括自适应检索,能根据查询语义深度精准定位相关文献段落 [4] - 引入了自反馈推理循环机制,在生成初步回答后进行检查和迭代优化,以提升事实性、覆盖率和引用准确性 [4][6] 性能表现与评估 - 在专门构建的大规模多领域评测基准ScholarQABench上,OpenScholar表现全面超越现有系统 [7] - 轻量模型OpenScholar-8B的综合正确率超过GPT-4o 6.1%,超过专用系统PaperQA2 5.5% [8] - 在引用准确性方面,OpenScholar-8B的表现仅略低于人类专家2.9分,而人类答案比无检索的GPT-4o高出9.6分 [8] - 在人类专家评估中,OpenScholar使用8B模型和GPT-4o分别以51%和70%的胜率击败人工生成答案,而原始GPT-4o胜率仅为31% [10][12] 现有模型问题与市场机会 - 大语言模型在科研辅助任务中面临挑战,难以跟上科学文献快速增长,且伴随严重“幻觉” [3] - 实验数据显示,GPT-4o在引用科学文献时产生错误引用的比例高达78%至90% [3] 竞争优势与实用性 - OpenScholar的引文准确率与人类专家相当 [1] - 其采用的轻量级专用检索器相比依赖庞大通用模型的方案,显著降低了系统的运行与计算成本 [12] 局限性 - 当前评测框架主要关注计算机科学、生物医学和物理学,尚未涵盖社会科学、工程学等其他重要学科 [13] - 基于人工标注的评估集规模较小,可能引入方差和专业偏差 [13] - 在某些复杂查询中,仍无法保证始终检索到最具代表性或最新的相关论文 [13] - 80亿参数的OpenScholar-8B模型在指令遵循和科学知识理解方面能力有限,可能导致输出存在事实性偏差 [13] - 系统仅使用开放获取论文,如何合理合法整合受版权保护的学术文献仍是待解决问题 [13] 未来发展计划 - 研究团队已经开源了OpenScholar的核心资源,包括代码、数据、模型检查点和评测基准 [14] - 未来工作将致力于整合用户反馈,优化检索质量、引用准确性及整体可用性 [15] - 计划将支持范围延伸至更多科学领域及多语言场景,并寻求与学术出版机构合作探索合规数据使用机制 [15]
引文幻觉大幅下降的AI模型诞生
科技日报· 2026-02-05 07:03
文章核心观点 - 开源语言模型“OpenScholar”在科学文献综述任务中的准确性和可靠性超越了GPT4o等商用大语言模型,其引文准确率与人类专家相近,有望成为科研人员处理繁重文献工作的有效工具 [1][2] - 商用大语言模型在辅助科研时存在显著缺陷,例如引文幻觉问题突出,GPT4o在实验中会在78%至90%的情况下出现引文幻觉 [1] - “OpenScholar”的成功得益于其专为科研设计的检索增强生成框架、庞大的专业数据库以及自我评估机制,代表了科学工具向专业化、可信化发展的重要趋势 [1][3] 模型性能与比较 - 在专门评估文献综述自动化的基准“ScholarQABench”测试中,“OpenScholar”的准确率比GPT4o和文献综述工具PaperQA2分别高出6.1%和5.5% [2] - “OpenScholar”生成的答案,在50%到70%的情况下比专家注释器的答案更有用 [2] - “OpenScholar”的引文准确率与人类专家相近,显著降低了引文幻觉问题 [1] 技术架构与特点 - “OpenScholar”是一个专为科研任务设计的检索增强语言模型 [1] - 该模型与一个包含4500万篇最新开放获取科研论文的专业数据库相结合 [1] - 系统集成了自我评估机制以优化输出 [1] - 该工具是开源的,旨在鼓励学界共同研究和优化 [2] 行业背景与需求 - 科学文献综述对于循证决策、微调科学过程和引导新发现至关重要 [1] - 文献发表数量的快速增长使研究人员难以掌握全部资讯 [1] - 科研人员需要从海量信息中筛选有用论文,当前工具存在将错误信息与真实信息一同呈现的问题 [3] 现有工具的局限性 - 商用大语言模型在辅助科研时容易出错,存在归因能力有限和引文幻觉等问题 [1] - 基于语言模型的系统无法使科学文献综述完全自动化 [2] - 通用的“万能”工具(如GPT)网眼太大,可能捞取虚假或错误引文(“塑料珠子”),需要研究人员花费大量时间甄别且可能被误导 [3] 发展前景与意义 - “OpenScholar”有望支持和推动进一步的科学研究工作 [2] - 该工具旨在将科研人员从繁琐、易错的文献工作中部分解放出来,使其能将精力集中于真正的思考和发现 [3] - 这代表了科学工具走向可信化的重要一步 [3]