GPTZero幻觉检测(Hallucination Check)工具
搜索文档
ICLR 2026还会好吗?300篇投稿50篇含幻觉,引用example.com竟也能过审
机器之心· 2025-12-08 18:11
ICLR 2026审稿中发现的AI生成内容与引用幻觉问题 - 第三方统计发现ICLR 2026有21%的审稿意见完全由AI生成[1] - OpenReview评审系统发生“开盒”事件,波及超过10000篇投稿[1] - AI检测平台GPTZero扫描了300篇投稿论文,发现其中50篇至少包含一处明显的引用幻觉内容[1] - 部分存在幻觉内容的投稿已经过3-5名领域专家的同行评审,但绝大多数未能被识别[5] - 部分存在幻觉的投稿平均评分高达8/10(满分10分),几乎确保被录用[6] 幻觉引用的具体表现形式与案例 - 引用链接直接使用默认示例链接“example.com”[3] - 作者名单仅为一串大写字母,而非真实姓名[4] - 引用论文真实存在,但所有作者信息错误[6] - 引用论文前几位作者信息正确,但后续作者为虚构或不在论文中[6] - 引用完全不存在的论文[8] - 具体案例包括论文《TamperTok》和《MixtureVitae》,其引用均存在作者信息完全错误或部分虚构的问题[6][7] GPTZero的幻觉检测工具与方法论 - 该工具自2024年1月推出,已测试过包括政治报告、公司报告在内的数百份文件[13] - 工具使用内部训练的AI智能体标记无法在网上找到的引用,标记后需人工审查确认[18] - 将“幻觉”定义为:使用生成式AI产生的、对真实来源标题、作者或元数据进行改写或拼凑的引用[18] - 工具假阴性率(漏报率)极低,成功发现有缺陷引用的概率可达99%[21] - 工具假阳性率(误报率)相对较高,因为它会标记任何无法在线验证的引用[22] - 该工具为同行评审提供两大关键益处:大幅减少验证文档来源所需的时间和人力,并使过程更公平透明[25][26][30] 学术出版行业面临的系统性压力 - 2016年至2024年间,每年发表的科学文章数量激增了48%[11] - 撤稿和其他学术丑闻层出不穷[11] - 科学会议和期刊难以找到合格的同行评审员,评审员因时间需求增加而不堪重负[11] - 生成式AI、论文工厂和发表压力共同引发了投稿狂潮,压垮了学术期刊与会议[10][11] - ICLR等顶级会议投稿和评审中AI撰写迹象普遍,包括行文冗长、滥用列举项、伪造数据和引用幻觉[11] 事件影响与行业警示 - GPTZero仅扫描了2万篇投稿中的300篇,预计未来几天将发现数百篇包含幻觉内容的论文[10] - 根据ICLR编辑政策,即使只有一处明确幻觉内容也构成伦理违规,可能导致论文被拒稿[10] - 事件暴露了在AI生成内容效率与人工验证成本之间存在不对称对抗,正在击穿同行评审防线[28] - 该事件被视为一个警告,表明在拥抱AI效率红利时,必须建立与之匹配的数字安检机制[28] - 否则,学术会议可能从思想碰撞的场所,演变为AI生成内容的自我狂欢[28]