AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥

转自：新智元编辑：编辑部 ZJH 【导读】刚刚，LMArena陷入了巨大争议，斯坦福MIT和Ai2等的研究者联手发论文痛斥，这个排行榜已经被Meta 等公司利用暗中操作排名！Karpathy也下场帮忙锤了一把。而LMArena官方立马回应：论文存在多处错误，指控不实。已经有越来越多的人发现：大模型排行榜LMArena，可能已经被大厂们玩坏了！就在最近，来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者，联手祭出一篇新论文，列出详尽论据，痛斥AI公司利用LMArena作弊刷分，踩着其他竞争对手上位。论文地址：https://arxiv.org/abs/2504.20879 与此同时，AI大佬、OpenAI创始成员Andrej Karpathy也直接下场，分享了一段自己的亲身经历。前一段时间，Gemini模型一度在LMArena排名第一，远超第二名。但Karpathy切换使用后，感觉还不如他之前用的模型。相反，大约在同一时间，他的个人体验是Claude 3.5是最好的，但在LMArena上的排名却很低。 | Rank* (UB) A | Model | Arena Sco ...