苹果AI论文太坑了!用GPT写的GT,导致北京程序员通宵加班
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 大无语事件天天有,今天特别多—— AI大模型公司阶跃星辰的研究员,自曝被苹果挂在arXiv上的论文,狠狠坑了一把。 自己去反馈问题,对方简单回了两句就把issue关了;直到自己留下公开评论,对方才撤稿下架代码了。 别着急,我们先来梗概一下故事线: 这个月月初,阶跃研究员Lei Yang被同事安利了一篇arXiv上苹果出品的论文 (该论文也在投ICLR 2026) ,论文中提出的benchmark和Lei Yang最近做的研究非常契合。 他超级开心,马上停下手头的工作,开始适配这个benchmark。 结果这个声称"小模型全面超越GPT-5、数据经人工精心把控"的视觉benchmark, 实际上却存在荒谬的官方代码bug和高达约30%的GT (Ground Truth) 错误率 。 看到这儿,你是不是已经觉得够离谱了? 不好意思了朋友们, 这还不是最离谱的 ……后续的故事看得人脑子上一个问号接一个问号冒出来。 这场闹剧的荒诞程度,一步步升级,直到最终Lei Yang"公开把它喷撤稿了"。 总之看得围观的Reddit吃瓜网友连连摇头: 我们曾拥有BatchNo ...