Workflow
大模型竞技场
icon
搜索文档
68页论文再锤大模型竞技场!Llama4发布前私下测试27个版本,只取最佳成绩
量子位· 2025-05-02 12:36
大模型竞技场可信度争议 - 核心观点:Chatbot Arena作为LLM领域首选排行榜存在系统性缺陷,包括私人测试选择性报告、数据访问不平等、训练数据利用及模型静默弃用等问题,导致排名可信度受质疑 [3][5][7] 排行榜机制问题 - 私人测试与选择性报告:Meta、Google等大厂被允许私下测试多个模型变体(如Llama 4测试27个版本),仅公开最佳表现版本,导致排名膨胀(测试50个变体时分数增加约50分) [10][11][14] - 快速轮番霸榜现象:Google Gemini、OpenAI ChatGPT-4o等模型短期内交替登顶,反映厂商优化变体池最大值策略而非真实技术进步 [17][18][19] 数据与训练不平等 - 数据访问倾斜:Google和OpenAI分别获得19.2%和20.4%测试数据,83个开源模型仅获29.7% [23] - 训练数据利用:使用竞技场数据训练可使模型胜率从23.5%提升至49.9%(保守估计),部分厂商拥有数据访问优势 [24][25][26] 模型静默弃用 - 243个公开模型中205个被静默弃用(官方仅列出47个),开源模型受影响显著 [27][28] 行业影响与替代方案 - 竞技场参考价值受Llama4刷榜风波冲击,行业需多元化评估基准(如OpenRouter) [33][35][36] - 官方回应称政策透明,模型移除基于社区兴趣标准,否认数据不实指控 [40] 研究背景 - 论文由Cohere团队、普林斯顿大学等机构联合提出,基于243个模型的200万+场对战数据分析 [7][30][31]