LMArena
搜索文档
全球最大AI榜单塌房,52%高分答案全是胡扯,硅谷大厂集体造假?
36氪· 2026-01-08 17:54
文章核心观点 - 一篇批评文章将主流大模型评测平台LMArena称为AI发展的“癌症”,指控其评测机制存在根本性缺陷,导致排名失真,并可能误导整个行业的研发方向[1] LMArena平台背景与运作机制 - LMArena(亦称LMSYS Chatbot Arena)由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的研究者于2023年创建[4] - 其运作方式为用户输入问题,两个匿名模型分别回答,然后用户投票选出更好的回答,最终通过Elo评分系统汇总形成大模型排行榜[5][6] 评测机制的核心缺陷 - 专业数据标注公司Surge AI的分析指出,平台依赖的“民主”投票存在严重问题,其分析500组投票数据发现,52%的获胜回答在事实上是错误的[7] - 更有39%的投票结果与事实严重相悖,意味着超过一半被选出的“最佳答案”并不正确[9] - 用户投票行为草率,倾向于根据格式而非事实进行选择,偏好回答更长、使用粗体、项目符号、分层标题或表情符号的回答,这使评测变成了“选美”[10] - 平台完全依赖互联网志愿者的随机投票,没有报酬、门槛或质量控制,官方也承认用户偏好格式而非正确答案[13] 行业影响与案例 - 评测机制的缺陷导致了“劣币驱逐良币”的现象,整个行业为奖励“幻觉”和格式的指标进行优化,催生出为迎合榜单而非解决实际问题而设计的模型[14] - Meta公司曾专门针对榜单进行优化,其提交至LMArena的模型版本(Llama-4-Maverick-03-26-Experimental)被优化为长篇大论、使用表情符号,使其一度冲至排行榜第二,而其公开发布的版本则排名第32位[11] - Meta的做法被其创始人承认是在“hack这个榜单”,LMArena官方随后更新政策要求模型必须公开可复现,但质疑其他厂商可能也在进行类似操作[13] 对行业发展的根本性质疑 - 批评指出,这不再是技术讨论,而是关于AI行业是否愿意为短期流量放弃真实性的底线抉择[16] - 大模型开发者面临残酷选择:是为闪亮的排行榜和短期流量优化,还是坚守初心,优先考虑实用性与可靠性[17] - 行业正站在关于价值观的岔路口,核心问题在于“我们正在教AI想要什么、学会什么”,同样的基座模型会因为优化目标(参与度 vs 实用性)不同而演变成完全不同的系统[19][20] - 为参与度优化的AI会学会迎合用户观点、使用热情语言,甚至提供自信的胡说八道;而为实用性优化的AI则可能学会简洁、反驳错误以及承认“我不知道”[19][20]
给AI打个分,结果搞出17亿估值独角兽?
36氪· 2026-01-07 19:04
融资与估值 - 公司LMArena完成1.5亿美元A轮融资,由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等机构跟投 [3] - 本轮融资后,公司估值升至17亿美元 [1] - 此前在2025年5月,公司曾获得1亿美元种子轮融资,当时估值为6亿美元 [7] 公司背景与发展历程 - 公司前身为Chatbot Arena,最初由来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校成员组成的开源组织LMSYS创建 [4] - 早期创建Chatbot Arena的目的是为了更有效地评估其自身开发的开源模型小羊驼Vicuna [4][6] - 该平台通过用户众包投票进行模型评估的模式获得成功,后从开源项目独立成为商业公司lmarena.ai [7] - 公司核心团队为90后,且华人含量高 [3] 核心技术产品 - 公司主要项目为全球大模型动态竞技场LMArena [8] - 公司开发的开源推理引擎SGLang在业内首次实现了在96块H100上跑出几乎媲美DeepSeek官方报告吞吐量的开源方案,并已被xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用 [4] - 平台核心评估机制为匿名对战、基于Bradley–Terry模型的Elo式评分以及人机协同框架 [9][10] - 用户输入问题后,系统随机匹配两个模型进行匿名回答,用户根据回答质量投票,投票后揭晓模型身份 [10] - 平台通过算法平衡模型的出场次数、任务类型和样本分布,以确保评估公平客观 [10] 市场地位与运营数据 - LMArena已成为模型测评首选的排行榜,各家新模型发布时常在该平台测试 [7][10] - 平台累计获得涵盖文本、视觉、网络开发等跨模态的5000万张投票 [12] - 平台已完成400余种开放及专有模型的评估 [12] - 平台产出了覆盖文本、多模态、专家及职业等多个类别的14.5万个开源战斗数据点 [12] - 根据实时排行榜,当前Gemini 3 Pro以1490分位居榜首,获得21,938张投票 [10][11] 资金用途与未来计划 - 新筹集的资金将用于平台运营,确保稳定高效运行并提升用户体验 [12] - 资金也将用于扩大技术团队,为平台发展注入更多专业技术力量 [12]
给AI打个分,结果搞出17亿估值独角兽???
量子位· 2026-01-07 17:11
融资与估值 - 大模型评估平台LMArena完成1.5亿美元A轮融资[1] - 公司估值在此轮融资后升至17亿美元[1] - 此轮融资由Felicis和加州大学投资公司领投,Andreessen Horowitz、The House Fund等机构跟投[3] 公司起源与背景 - 公司前身是Chatbot Arena,最初由来自UC伯克利、斯坦福等顶尖高校的成员组成的开源组织LMSYS创建[5][6] - 团队曾开发开源推理引擎SGLang,在96块H100上实现了媲美DeepSeek官方报告吞吐量的开源方案[7] - SGLang已被xAI、英伟达、AMD、谷歌云、阿里云、美团、腾讯云等企业和机构采用[8] - 团队核心为90后华人,占比达99%[4] 核心业务与产品 - 公司核心业务是提供第三方大模型评估平台,主要产品为LMArena(原Chatbot Arena)[9][16][18] - 平台采用匿名对战、Elo式评分和人机协同框架进行评估[20] - 用户输入问题后,系统随机匹配两个模型进行匿名回答,用户投票选择更优答案后揭晓模型身份[21][22] - 基于Bradley–Terry模型的Elo评分机制,模型根据对战胜负增减分数,形成实时排行榜[22] - 平台通过算法平衡模型的出场次数、任务类型和样本分布,以确保评估公平[22] 市场地位与影响力 - 平台已成为全球大模型“出道”时的必测榜单,是模型测评首选的排行榜[14][23] - 截至报告时,平台累计获得5000万张跨模态投票,完成了400余种开放及专有模型的评估,并产出了14.5万个开源战斗数据点[25] - 在平台实时排行榜中,Gemini 3 Pro以1490分位居榜首[23][24] 发展历程与资金用途 - 平台最初因团队为评估自研的Vicuna模型而创建,后因影响力扩大而独立成为商业公司[10][11][15][16] - 2025年5月,公司获得1亿美元种子轮融资,估值达6亿美元[17] - 新一轮融资将用于平台运营以保障稳定高效运行,并扩大技术团队[25]
「纳米香蕉」LMArena两周500万投票,引爆10倍流量,谷歌、OpenAI扎堆打擂台
36氪· 2025-09-04 18:10
LMArena平台表现 - 8月平台流量暴增10倍 月活跃用户超过300万[1][9] - 两周内吸引超过500万次总投票 其中纳米香蕉单独赢得250万+直接投票 创历史最高参与度[1][3] - 平台前身Chatbot Arena起源于2023年伯克利研究项目 采用匿名众包成对比较机制评估大模型[12] 纳米香蕉模型表现 - 8月登顶Image Edit Arena榜首 同时获得Text-to-Image榜单第一名 成为双料冠军[1][17] - 以匿名盲测方式登场 用户需在Battle功能中随机遇到该模型[17] - 实际为谷歌Gemini 2.5 Flash Image模型 在社区引发广泛猜测后由谷歌官方认领[4] 平台运营机制 - 采用Elo计分系统 通过匿名随机配对投票减少品牌光环效应[20] - 累计投票达数百万次 科技媒体频繁引用其数据[20] - 提供跨厂商模型同台竞技 包含开源和闭源模型[22] 行业影响 - 成为谷歌 OpenAI等AI大厂模型评测的核心竞技场[1][9] - 被科技公司视为AI技术风向标 厂商密切关注榜单变化[16] - 为模型厂商提供真实用户反馈报告 帮助迭代改进模型[25] 模型排名数据 - Gemini 2.5 Flash Image以1362分位居Image Edit Arena榜首[18] - 在Text-to-Image榜单中 Gemini 2.5 Flash Image以1147分领先第二名Imagen 4.0 Ultra的1135分[18] - 编码领域Claude表现最佳 创意领域Gemini位居前列[19] 平台发展方向 - 推出WebDev等基于真实使用场景的基准测试[27] - 计划扩展到更多行业 弥合技术与实用场景的鸿沟[28] - 保持数据研究流程透明 发布数据推动社区建设[29]
人物一致性新王Nano Banana登基,AI图片编辑史诗级升级。
数字生命卡兹克· 2025-08-19 09:05
AI绘图模型Nano Banana评测 核心观点 - Nano Banana在人物一致性、背景替换、细节修改等方面表现远超其他AI绘图模型,成为当前一致性最强的AI生图工具 [1][6][82] - 该模型疑似由Google DeepMind开发,目前仅在LMArena平台通过随机盲测形式出现,尚未正式发布 [25][11][13] 模型性能对比 - **人物一致性**:Nano Banana能完美保留面部特征、表情细节和服饰元素,其他模型如GPT-4o存在泛黄滤镜、Flux Kontext擅自修改表情、即梦错误改变人脸结构 [6][37][55] - **多主体处理**:在将《罗马假日》主角替换为川普和马斯克的测试中,Nano Banana准确还原人物特征,Flux生成双胞胎,GPT-4o面部失真,即梦遗漏主体 [43][47] - **背景替换**:Nano Banana生成的末日废墟场景具有真实光影和丰富细节,Flux/GPT-4o背景糊化,即梦添加无关程序猿元素 [49][51] - **风格转换**:在赛博朋克、梵高风格、水墨画转换测试中,Nano Banana保持最高完成度和人物一致性 [72][75][77] 技术应用场景 - 视频封面制作:通过单张照片+提示词即可生成多动作版本,成功率显著高于需反复抽卡的其他模型 [80][7] - 手办设计:实现2D转3D、添加特效背景等操作,被用户用于制作梦幻联动内容 [15][18][20] 行业动态 - 当前AI绘图领域主要竞争者包括GPT-4o、Flux Kontext、即梦等,但Nano Banana的出现可能重塑竞争格局 [12][79] - Google通过匿名测试新模型的方式收集用户反馈,显示其技术储备领先行业 [10][25] 使用方式 - 需通过LMArena平台的battle模式随机触发,输入prompt和参考图后由系统盲选模型生成,用户无法主动选择Nano Banana [26][28][33]
AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
虎嗅APP· 2025-05-01 21:51
核心观点 - AI大模型排行榜LMArena被指控存在作弊行为,多家科技巨头被指利用漏洞刷分提升排名[2][11] - 斯坦福、MIT等机构联合研究指出少数公司通过私下测试机制选择性提交高分模型,导致排行榜结果失真[12][13] - 闭源商业模型在LMArena中获得更多对战机会和数据流量,开源模型处于明显劣势[23][26] - LMArena官方否认指控并反驳研究存在事实错误,但行业专家建议转向OpenRouter等新评测平台[36][44] 行业现状分析 - LMArena已成为AI行业重要评测标准,科技公司投入巨资争夺排名优势[54] - 研究分析280万场对战数据显示,Google和OpenAI模型分别获得19.2%和20.4%的用户对战数据[30] - 83个开源模型总数据占比仅29.7%,存在明显数据访问不平等现象[30] - 允许模型撤回机制导致Meta等公司可测试27个变体后只提交最优结果[19][20] 公司行为分析 - Google的Gemini-2.5-Pro-Exp-03-25以1443分位居榜首,但实际用户体验与排名不符[5][6] - Meta被曝在发布Llama 4前私下测试27个LLM变体,涉嫌选择性提交最优结果[19] - 闭源商业模型平均采样率显著高于开源模型,形成数据获取的马太效应[24][25] - 部分小模型在缺乏现实知识情况下获得异常高分,引发操纵质疑[8][42] 评测机制问题 - LMArena原始设计依赖用户匿名对比评分,但后期引入公司预测试破坏公平性[52][59] - 未公开的私下测试机制使大公司能优化特定指标而非真实模型能力[15][32] - 模型移除标准不透明,开源模型更易被下架[23][40] - 研究估算额外数据可能带来112%相对性能提升,加剧排行榜过拟合[31] 行业影响 - 评测失真导致公司资源投向刷分而非真实模型改进[43] - 创始团队更替后LMArena政策变化,透明度下降[57][58] - 专家推荐OpenRouter平台,其榜单显示Claude 3.7 Sonnet等模型更受实际用户青睐[47][49] - 行业需要建立更抗操纵的评测标准以反映真实模型能力[44][48]