AI圈惊天丑闻，Meta作弊刷分实锤？顶级榜单曝黑幕，斯坦福MIT痛斥

核心观点 - LMArena排行榜被指控存在大公司操纵排名的现象，斯坦福、MIT等机构研究者联合发布论文指出Meta等公司利用漏洞刷分[1][2] - 论文分析280万场对战数据发现，少数公司通过私下测试机制选择性提交高分模型，导致排行榜结果偏见[13][16] - 闭源商业模型在LMArena中占据数据优势，Google和OpenAI分别获得19.2%和20.4%的用户对战数据，83个开源模型仅占29.7%[27][33] - LMArena官方回应称论文存在事实错误，开源模型实际占比40%而非8.8%，并强调政策透明度[42][47] - Andrej Karpathy推荐OpenRouterAI作为替代平台，认为其基于真实用例的机制更难被操控[51][56] 排行榜争议 - Gemini-2.5-Pro-Exp-03-25以1443分排名LMArena第一，但Karpathy实测体验不如Claude 3.5[5][6][7] - 排行榜前十中Google占4席，OpenAI占3席，DeepSeek和Alibaba各占2席[8] - 研究者发现部分小模型排名异常高，疑似缺乏现实知识但通过机制漏洞刷分[8][9] 论文指控细节 - 公司利用"best-of-N"策略提交多个变体，仅公布最优结果使排名虚高[14][17][20] - 允许撤回评分的机制导致提供商人为抬高分数，模拟显示额外数据可带来112%性能提升[22][36] - 数据分配不平等：61.3%对战数据流向特定公司，开源模型被移除概率更高[27][30][35] 行业影响 - LMArena最初由高校学生创建，采用匿名对战机制成为行业标准，但创始团队更迭后透明度下降[58][59][62] - 大公司通过预发布测试机制优化模型以适应排行榜指标，而非提升通用能力[37][51] - OpenRouterAI以真实API调用量排名，Claude 3.7 Sonnet以1.21T tokens用量居首[54][55] 公司回应 - LMArena否认操纵指控，称模型下架均因公开可用性不足，政策已公开一年多[45][48][50] - 谷歌DeepMind研究员反驳论文数据，称Gemma 3仅提交一个预发布模型测试[44] - 官方强调排行榜模型需满足长期支持条件，临时版本不会列入排名[50]