苹果AI论文太坑了,用GPT写的GT,导致北京程序员通宵加班
事件概述 - 苹果公司一篇提交至ICLR 2026的AI论文,因数据质量存在严重问题,在受到公开质疑后最终被作者撤稿 [1][2] - 该论文提出了一个基于谜题的视觉推理任务诊断基准,声称“小模型全面超越GPT-5、数据经人工精心把控” [2][6] - 阶跃星辰的研究员Lei Yang在适配该基准时,发现其存在官方代码错误和高达约30%的标注真值错误率 [2][9] 数据与代码质量问题 - 官方代码存在基础性错误,例如请求视觉语言模型时仅使用图片路径字符串,而不包含图片本身 [8] - 研究员初步估算,基准中的标注真值错误率可能高达30%,错误风格显示可能是模型自动生成标注后质检严重不足所致 [9] - 论文作者在回应中承认审核不周,未认真审核关键部分,导致GPT自动转换解答思路时出现幻觉,影响了步骤标签的准确性 [17] 问题发现与反馈过程 - 研究员在修复代码错误后,模型性能不升反降,通过逐条分析错题才发现标注真值存在大量问题 [8][9] - 研究员最初通过GitHub向作者反馈问题,但作者在简单回复后便关闭了问题反馈通道 [10] - 在ICLR评审结果公布后,研究员发现5位审稿人均未指出数据质量问题,遂撰写公开评论以提醒学术社区 [11] 事件结果与影响 - 在研究员发布详尽的公开评论后第二天,论文作者宣布撤稿并删除了GitHub上的代码仓库 [13] - 论文作者公开回应,对直接关闭问题反馈通道的行为表示抱歉,并承诺未来会保持问题开放直至解决 [18] - 该事件在机器学习社区引发讨论,有观点认为这反映了大模型时代研究质量管控的挑战 [4]