离了大谱，21%的ICLR 2026审稿意见竟是AI生成的？官方回应来了

文章核心观点 - ICLR 2026会议审稿过程中出现大量AI生成或辅助撰写的审稿意见，引发社区讨论[1][2] 一项对75,800篇论文审稿意见的统计显示，完全由AI生成的审稿意见占比达21%，而完全由人类撰写的仅占43%[2] 官方已回应并建议作者将低质量或LLM生成的评审反馈给领域主席[18] 审稿意见中的AI使用情况 - 在统计的75,800篇论文审稿意见中，完全由AI生成的意见占21%，重度由AI编辑的占4%，中度由AI编辑的占9%，轻度由AI编辑的占22%，完全由人类撰写的占43%[2] - 完全由AI生成的审稿意见平均得分（4.43分）比完全由人类撰写的意见（4.13分）高出0.3分[11] - 完全由AI生成的审稿意见平均长度为3,687字符，比完全由人类撰写的意见（2,917字符）长了26%[11] 投稿论文中的AI使用情况 - 在19,490篇投稿论文中，有39%以某种方式使用了AI作为写作助手[8] - 论文中的AI使用程度与较低的评分呈负相关，AI内容占比90–100%的199篇投稿平均得分仅为2.9分[8] - AI内容占比0-10%的论文数量最多，为11,864篇（61%），平均得分最高，为4.36分[9] 检测方法与模型准确性 - 检测由Pangram Labs完成，其使用Mistral-OCR解析PDF文本，并运行Pangram生产模型估计AI使用程度[5][6] - 针对简短的审稿文本，公司使用了新模型EditLens来量化AI辅助程度[9] - 模型准确性验证显示，完全由AI生成的检测未出现任何假阳性，重度、中度和轻度AI编辑的假阳性率分别为万分之一、五千分之一和千分之一[14] 社区反应与官方措施 - 有审稿人反映，其评审的论文因收到两个被标记为完全由AI生成的低分评审而被退回[16] - ICLR 2026官方回应已注意到低质量及LLM生成的评审，正讨论应对措施，并建议作者向领域主席反馈此类情况[18] - 社区有建议指出，应移除不良评审并自动认定相关审稿人未履行职责，继而自动拒绝其提交的论文[18]