全球最大AI榜单塌房，52%高分答案全是胡扯，硅谷大厂集体造假？

文章核心观点 - 一篇批评文章将主流大模型评测平台LMArena称为AI发展的“癌症”，指控其评测机制存在根本性缺陷，导致排名失真，并可能误导整个行业的研发方向[1] LMArena平台背景与运作机制 - LMArena（亦称LMSYS Chatbot Arena）由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建[4] - 其运作方式为用户输入问题，两个匿名模型分别回答，然后用户投票选出更好的回答，最终通过Elo评分系统汇总形成大模型排行榜[5][6] 评测机制的核心缺陷 - 专业数据标注公司Surge AI的分析指出，平台依赖的“民主”投票存在严重问题，其分析500组投票数据发现，52%的获胜回答在事实上是错误的[7] - 更有39%的投票结果与事实严重相悖，意味着超过一半被选出的“最佳答案”并不正确[9] - 用户投票行为草率，倾向于根据格式而非事实进行选择，偏好回答更长、使用粗体、项目符号、分层标题或表情符号的回答，这使评测变成了“选美”[10] - 平台完全依赖互联网志愿者的随机投票，没有报酬、门槛或质量控制，官方也承认用户偏好格式而非正确答案[13] 行业影响与案例 - 评测机制的缺陷导致了“劣币驱逐良币”的现象，整个行业为奖励“幻觉”和格式的指标进行优化，催生出为迎合榜单而非解决实际问题而设计的模型[14] - Meta公司曾专门针对榜单进行优化，其提交至LMArena的模型版本（Llama-4-Maverick-03-26-Experimental）被优化为长篇大论、使用表情符号，使其一度冲至排行榜第二，而其公开发布的版本则排名第32位[11] - Meta的做法被其创始人承认是在“hack这个榜单”，LMArena官方随后更新政策要求模型必须公开可复现，但质疑其他厂商可能也在进行类似操作[13] 对行业发展的根本性质疑 - 批评指出，这不再是技术讨论，而是关于AI行业是否愿意为短期流量放弃真实性的底线抉择[16] - 大模型开发者面临残酷选择：是为闪亮的排行榜和短期流量优化，还是坚守初心，优先考虑实用性与可靠性[17] - 行业正站在关于价值观的岔路口，核心问题在于“我们正在教AI想要什么、学会什么”，同样的基座模型会因为优化目标（参与度 vs 实用性）不同而演变成完全不同的系统[19][20] - 为参与度优化的AI会学会迎合用户观点、使用热情语言，甚至提供自信的胡说八道；而为实用性优化的AI则可能学会简洁、反驳错误以及承认“我不知道”[19][20]