Workflow
AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
猿大侠·2025-05-02 12:23

转自:新智元 编辑:编辑部 ZJH 【导读】 刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta 等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不 实。 已经有越来越多的人发现:大模型排行榜LMArena,可能已经被大厂们玩坏了! 就在最近,来自Cohere、普林斯顿、斯坦福、滑铁卢、MIT和Ai2等机构的研究者,联手祭出一篇新论文,列出详尽论 据,痛斥AI公司利用LMArena作弊刷分,踩着其他竞争对手上位。 论文地址:https://arxiv.org/abs/2504.20879 与此同时,AI大佬、OpenAI创始成员Andrej Karpathy也直接下场,分享了一段自己的亲身经历。 前一段时间,Gemini模型一度在LMArena排名第一,远超第二名。 但Karpathy切换使用后,感觉还不如他之前用的模型。 相反,大约在同一时间,他的个人体验是Claude 3.5是最好的,但在LMArena上的排名却很低。 | Rank* (UB) A | Model | Arena Sco ...