核心观点 - AI大模型排行榜LMArena被指控存在作弊行为,多家科技巨头被指利用漏洞刷分提升排名[2][11] - 斯坦福、MIT等机构联合研究指出少数公司通过私下测试机制选择性提交高分模型,导致排行榜结果失真[12][13] - 闭源商业模型在LMArena中获得更多对战机会和数据流量,开源模型处于明显劣势[23][26] - LMArena官方否认指控并反驳研究存在事实错误,但行业专家建议转向OpenRouter等新评测平台[36][44] 行业现状分析 - LMArena已成为AI行业重要评测标准,科技公司投入巨资争夺排名优势[54] - 研究分析280万场对战数据显示,Google和OpenAI模型分别获得19.2%和20.4%的用户对战数据[30] - 83个开源模型总数据占比仅29.7%,存在明显数据访问不平等现象[30] - 允许模型撤回机制导致Meta等公司可测试27个变体后只提交最优结果[19][20] 公司行为分析 - Google的Gemini-2.5-Pro-Exp-03-25以1443分位居榜首,但实际用户体验与排名不符[5][6] - Meta被曝在发布Llama 4前私下测试27个LLM变体,涉嫌选择性提交最优结果[19] - 闭源商业模型平均采样率显著高于开源模型,形成数据获取的马太效应[24][25] - 部分小模型在缺乏现实知识情况下获得异常高分,引发操纵质疑[8][42] 评测机制问题 - LMArena原始设计依赖用户匿名对比评分,但后期引入公司预测试破坏公平性[52][59] - 未公开的私下测试机制使大公司能优化特定指标而非真实模型能力[15][32] - 模型移除标准不透明,开源模型更易被下架[23][40] - 研究估算额外数据可能带来112%相对性能提升,加剧排行榜过拟合[31] 行业影响 - 评测失真导致公司资源投向刷分而非真实模型改进[43] - 创始团队更替后LMArena政策变化,透明度下降[57][58] - 专家推荐OpenRouter平台,其榜单显示Claude 3.7 Sonnet等模型更受实际用户青睐[47][49] - 行业需要建立更抗操纵的评测标准以反映真实模型能力[44][48]
AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
虎嗅APP·2025-05-01 21:51