68页论文再锤大模型竞技场！Llama4发布前私下测试27个版本，只取最佳成绩

大模型竞技场的可信度，再次被锤。最近一篇名为《排行榜幻觉》（The Leaderboard Illusion）的论文在学术圈引发关注。它指出，如今被视为LLM领域首选排行榜的Chatbot Arena，存在诸多系统问题。比如：大神卡帕西也站出来表示，他个人也察觉出了一些异样。有一段时间，Claude-3.5是我觉得最好用的模型，但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。明敏发自凹非寺量子位 | 公众号 QbitAI 对于最新质疑，大模型竞技场官方Lmrena.ai已经给出回应：少数大厂可以私下测试多个模型版本， Llama4在发布前甚至测了27个版本，然后只公开最佳表现。数据访问不平等，专有模型获得的用户反馈数据显著多于开源模型。试用Arena数据训练，可提升模型性能高达112% 。 205个模型被悄悄静默弃用，远超过官方列出的47个。确实帮助厂商进行测试，最后发布最受欢迎的版本；但这不代表竞技场有偏见，排行榜反映数百万人类的个人真实偏好。快速刷榜不符合模型进步实际情况具体来看这项研究，它收集了243个模型的200+万场竞技场battle，并结合私人真实测试，通 ...