苹果AI论文太坑了，用GPT写的GT，导致北京程序员通宵加班

事件概述 - 苹果公司一篇提交至ICLR 2026的AI论文，因数据质量存在严重问题，在受到公开质疑后最终被作者撤稿 [1][2] - 该论文提出了一个基于谜题的视觉推理任务诊断基准，声称“小模型全面超越GPT-5、数据经人工精心把控” [2][6] - 阶跃星辰的研究员Lei Yang在适配该基准时，发现其存在官方代码错误和高达约30%的标注真值错误率 [2][9] 数据与代码质量问题 - 官方代码存在基础性错误，例如请求视觉语言模型时仅使用图片路径字符串，而不包含图片本身 [8] - 研究员初步估算，基准中的标注真值错误率可能高达30%，错误风格显示可能是模型自动生成标注后质检严重不足所致 [9] - 论文作者在回应中承认审核不周，未认真审核关键部分，导致GPT自动转换解答思路时出现幻觉，影响了步骤标签的准确性 [17] 问题发现与反馈过程 - 研究员在修复代码错误后，模型性能不升反降，通过逐条分析错题才发现标注真值存在大量问题 [8][9] - 研究员最初通过GitHub向作者反馈问题，但作者在简单回复后便关闭了问题反馈通道 [10] - 在ICLR评审结果公布后，研究员发现5位审稿人均未指出数据质量问题，遂撰写公开评论以提醒学术社区 [11] 事件结果与影响 - 在研究员发布详尽的公开评论后第二天，论文作者宣布撤稿并删除了GitHub上的代码仓库 [13] - 论文作者公开回应，对直接关闭问题反馈通道的行为表示抱歉，并承诺未来会保持问题开放直至解决 [18] - 该事件在机器学习社区引发讨论，有观点认为这反映了大模型时代研究质量管控的挑战 [4]