科学界爆发AI认知污染，1年狂投50篇论文，ICLR投稿20%AI生成

文章核心观点 - 生成式AI正在导致科学出版行业出现大规模、系统性的“认知污染”，包括伪造引用、数据、图片及论文本身，严重威胁科学知识的可靠性与完整性 [3][6][16] - 从“论文工厂”的工业化作弊到审稿人使用AI审稿，形成了一个“AI写论文、AI审论文”的荒诞闭环，加剧了虚假内容的传播并压垮了传统的同行评审体系 [9][25][30] - 虚假内容正从传统期刊蔓延至预印本平台，可能导致科学文献体系滑向由AI生成内容主导的“死亡互联网”状态，对未来的科学研究构成根本性威胁 [34][37][42] AI在科学出版中的滥用现象 - 出现大量“幽灵引用”，即AI凭空编造了不存在的论文及其引用链，甚至出现在知名期刊和政府报告中 [3] - AI生成了完全虚构的引用，包括不存在的作者、期刊和研究，导致研究人员需追溯验证所有引用 [4] - 论文工厂利用AI进行“工业化作弊”，使用固定模板大规模生产文本高度雷同的假论文，尤其在癌症研究等领域 [9] - AI能够生成逼真的虚假科学图像，如组织切片和电泳凝胶图，这些在生物医学研究中通常被视为“铁证” [13][14] - 在顶级AI会议NeurIPS 2025接收的4841篇论文中，发现了数百条由AI编造的“幻觉引用” [15] 对同行评审体系的影响与冲击 - 论文投稿量因大模型而以前所未有的数量涌入，将“同行评审”管道彻底撑爆，使去伪存真的工作变得极其耗时困难 [22][23][24] - 为应对海量AI生成论文，超过一半的同行评审意见是在大语言模型帮助下编写，约五分之一完全由AI生成 [27] - 作者通过在论文中嵌入肉眼不可见的“白色密令”指令，直接操控AI审稿人，使其对论文做出高度评价 [30] 预印本平台的污染与系统性风险 - 自ChatGPT发布后，arXiv、bioRxiv、medRxiv等预印本平台投稿量出现不正常暴涨 [34] - 2025年，似乎使用大语言模型的科学家发布的论文比不使用的多约33% [35] - bioRxiv上出现从未发过论文的研究人员在一年内狂发50篇论文的离奇景象 [36] - 若虚假论文比例极高，可能导致学术界的“生存危机”，科学文献可能演变为主要由AI生成和审查的“死亡互联网”状态 [37][42][43] - 虚假内容将被用来训练下一代AI模型，导致欺诈数据成为知识系统中永久性的“认知污染” [44][45]