Workflow
AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
猿大侠·2025-05-02 12:23

核心观点 - LMArena排行榜被指控存在大公司操纵排名的现象,斯坦福、MIT等机构研究者联合发布论文指出Meta等公司利用漏洞刷分[1][2] - 论文分析280万场对战数据发现,少数公司通过私下测试机制选择性提交高分模型,导致排行榜结果偏见[13][16] - 闭源商业模型在LMArena中占据数据优势,Google和OpenAI分别获得19.2%和20.4%的用户对战数据,83个开源模型仅占29.7%[27][33] - LMArena官方回应称论文存在事实错误,开源模型实际占比40%而非8.8%,并强调政策透明度[42][47] - Andrej Karpathy推荐OpenRouterAI作为替代平台,认为其基于真实用例的机制更难被操控[51][56] 排行榜争议 - Gemini-2.5-Pro-Exp-03-25以1443分排名LMArena第一,但Karpathy实测体验不如Claude 3.5[5][6][7] - 排行榜前十中Google占4席,OpenAI占3席,DeepSeek和Alibaba各占2席[8] - 研究者发现部分小模型排名异常高,疑似缺乏现实知识但通过机制漏洞刷分[8][9] 论文指控细节 - 公司利用"best-of-N"策略提交多个变体,仅公布最优结果使排名虚高[14][17][20] - 允许撤回评分的机制导致提供商人为抬高分数,模拟显示额外数据可带来112%性能提升[22][36] - 数据分配不平等:61.3%对战数据流向特定公司,开源模型被移除概率更高[27][30][35] 行业影响 - LMArena最初由高校学生创建,采用匿名对战机制成为行业标准,但创始团队更迭后透明度下降[58][59][62] - 大公司通过预发布测试机制优化模型以适应排行榜指标,而非提升通用能力[37][51] - OpenRouterAI以真实API调用量排名,Claude 3.7 Sonnet以1.21T tokens用量居首[54][55] 公司回应 - LMArena否认操纵指控,称模型下架均因公开可用性不足,政策已公开一年多[45][48][50] - 谷歌DeepMind研究员反驳论文数据,称Gemma 3仅提交一个预发布模型测试[44] - 官方强调排行榜模型需满足长期支持条件,临时版本不会列入排名[50]