文章核心观点 - 一篇批评文章将主流大模型评测平台LMArena称为AI发展的“癌症”,指控其评测机制存在根本性缺陷,导致排名失真,并可能误导整个行业的研发方向[1] LMArena平台背景与运作机制 - LMArena(亦称LMSYS Chatbot Arena)由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建[4] - 其运作方式为用户输入问题,两个匿名模型分别回答,然后用户投票选出更好的回答,最终通过Elo评分系统汇总形成大模型排行榜[5][6] 评测机制的核心缺陷 - 专业数据标注公司Surge AI的分析指出,平台依赖的“民主”投票存在严重问题,其分析500组投票数据发现,52%的获胜回答在事实上是错误的[7] - 更有39%的投票结果与事实严重相悖,意味着超过一半被选出的“最佳答案”并不正确[9] - 用户投票行为草率,倾向于根据格式而非事实进行选择,偏好回答更长、使用粗体、项目符号、分层标题或表情符号的回答,这使评测变成了“选美”[10] - 平台完全依赖互联网志愿者的随机投票,没有报酬、门槛或质量控制,官方也承认用户偏好格式而非正确答案[13] 行业影响与案例 - 评测机制的缺陷导致了“劣币驱逐良币”的现象,整个行业为奖励“幻觉”和格式的指标进行优化,催生出为迎合榜单而非解决实际问题而设计的模型[14] - Meta公司曾专门针对榜单进行优化,其提交至LMArena的模型版本(Llama-4-Maverick-03-26-Experimental)被优化为长篇大论、使用表情符号,使其一度冲至排行榜第二,而其公开发布的版本则排名第32位[11] - Meta的做法被其创始人承认是在“hack这个榜单”,LMArena官方随后更新政策要求模型必须公开可复现,但质疑其他厂商可能也在进行类似操作[13] 对行业发展的根本性质疑 - 批评指出,这不再是技术讨论,而是关于AI行业是否愿意为短期流量放弃真实性的底线抉择[16] - 大模型开发者面临残酷选择:是为闪亮的排行榜和短期流量优化,还是坚守初心,优先考虑实用性与可靠性[17] - 行业正站在关于价值观的岔路口,核心问题在于“我们正在教AI想要什么、学会什么”,同样的基座模型会因为优化目标(参与度 vs 实用性)不同而演变成完全不同的系统[19][20] - 为参与度优化的AI会学会迎合用户观点、使用热情语言,甚至提供自信的胡说八道;而为实用性优化的AI则可能学会简洁、反驳错误以及承认“我不知道”[19][20]
全球最大AI榜单塌房,52%高分答案全是胡扯,硅谷大厂集体造假?