68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
量子位·2025-05-02 12:36
大模型竞技场的可信度,再次被锤。 最近一篇名为《排行榜幻觉》(The Leaderboard Illusion)的论文在学术圈引发关注。 它指出,如今被视为LLM领域首选排行榜的Chatbot Arena,存在诸多系统问题。比如: 大神卡帕西也站出来表示,他个人也察觉出了一些异样。 有一段时间,Claude-3.5是我觉得最好用的模型,但是在竞技场中排名很低。当时我在网上也看到了类似的反馈。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 对于最新质疑,大模型竞技场官方Lmrena.ai已经给出回应: 少数大厂可以私下测试多个模型版本, Llama4在发布前甚至测了27个版本 ,然后只公开最佳表现。 数据访问不平等,专有模型获得的用户反馈数据显著多于开源模型。 试用Arena数据训练,可提升模型性能 高达112% 。 205个模型被悄悄静默弃用,远超过官方列出的47个。 确实帮助厂商进行测试,最后发布最受欢迎的版本; 但这不代表竞技场有偏见,排行榜反映数百万人类的个人真实偏好。 快速刷榜不符合模型进步实际情况 具体来看这项研究,它收集了243个模型的200+万场竞技场battle,并结合私人真实测试,通 ...