离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了
机器之心·2025-11-17 11:19

文章核心观点 - ICLR 2026会议审稿过程中出现大量AI生成或辅助撰写的审稿意见,引发社区讨论[1][2] 一项对75,800篇论文审稿意见的统计显示,完全由AI生成的审稿意见占比达21%,而完全由人类撰写的仅占43%[2] 官方已回应并建议作者将低质量或LLM生成的评审反馈给领域主席[18] 审稿意见中的AI使用情况 - 在统计的75,800篇论文审稿意见中,完全由AI生成的意见占21%,重度由AI编辑的占4%,中度由AI编辑的占9%,轻度由AI编辑的占22%,完全由人类撰写的占43%[2] - 完全由AI生成的审稿意见平均得分(4.43分)比完全由人类撰写的意见(4.13分)高出0.3分[11] - 完全由AI生成的审稿意见平均长度为3,687字符,比完全由人类撰写的意见(2,917字符)长了26%[11] 投稿论文中的AI使用情况 - 在19,490篇投稿论文中,有39%以某种方式使用了AI作为写作助手[8] - 论文中的AI使用程度与较低的评分呈负相关,AI内容占比90–100%的199篇投稿平均得分仅为2.9分[8] - AI内容占比0-10%的论文数量最多,为11,864篇(61%),平均得分最高,为4.36分[9] 检测方法与模型准确性 - 检测由Pangram Labs完成,其使用Mistral-OCR解析PDF文本,并运行Pangram生产模型估计AI使用程度[5][6] - 针对简短的审稿文本,公司使用了新模型EditLens来量化AI辅助程度[9] - 模型准确性验证显示,完全由AI生成的检测未出现任何假阳性,重度、中度和轻度AI编辑的假阳性率分别为万分之一、五千分之一和千分之一[14] 社区反应与官方措施 - 有审稿人反映,其评审的论文因收到两个被标记为完全由AI生成的低分评审而被退回[16] - ICLR 2026官方回应已注意到低质量及LLM生成的评审,正讨论应对措施,并建议作者向领域主席反馈此类情况[18] - 社区有建议指出,应移除不良评审并自动认定相关审稿人未履行职责,继而自动拒绝其提交的论文[18]