给大模型排名，两个博士一年干出17亿美金AI独角兽

公司概况与融资 - AI大模型评测机构LMArena于近期完成1.5亿美元融资，估值达到17亿美元，成为独角兽公司 [2] - 公司起源于伯克利校园项目，其核心业务是通过众包匿名对战模式，让用户投票评估AI模型 [2] - 公司在2025年9月推出B端评估服务“AI Evaluations”，产品上线4个月后年化经常性收入突破3000万美元，客户包括OpenAI、Google、xAI等头部AI企业 [2] 行业痛点与旧评估体系失效 - 传统基于有限基准测试和排行榜的AI模型评估体系逐渐失灵，模型容易针对题库“过拟合”，导致能力趋同、创造力下降 [4][6][7] - 行业出现“AI疲劳”，模型参数升级与榜单刷新带来的兴奋感衰减，产品落地节奏跟不上宣传节奏 [4] - 旧的评估体系塑造了不健康的激励机制，引导模型优化目标向固定解法收敛，而非真正的理解与推理 [5][6][7] LMArena的解决方案与核心机制 - 平台核心设计为用户提问后，系统随机抽取两个匿名模型作答，用户从有用性、准确性等角度对并排展示的答案进行投票 [12] - 平台采用类似国际象棋的Elo评级系统，通过累计数万至数十万次用户投票对比来计算模型动态排名 [13] - 平台日均进行上千场匿名对战，每月产生超过6000万次模型对话，覆盖超过150个国家，月活跃用户达到500万 [2][19] - 平台设有Arena-Expert模块，筛选约5.5%的“专家级”提示作为高压测试样本，并衍生出Code Arena、Image Arena等专项竞技场 [14] 平台影响力与行业认可 - 平台已成为行业默认的“试金石”，几乎所有头部模型厂商均已接入，包括OpenAI、Anthropic、Google、Meta、DeepSeek等 [19] - 头部公司主动将未公开发布的新品（如Google的Gemini 2.5 Flash Image）接入平台进行内测 [9][10][19] - 2025年8月，匿名模型“nano-banana”在图像编辑竞技场累计获得超500万次社区投票，其中直接胜出票达250万张，带动平台当月访问量增长10倍，月活突破300万，后该模型被证实为Google的Gemini 2.5 Flash Image [9][10] - 在2025年11月的中文榜单中，国产大模型实现对国际模型的系统性反超，前十名中占据八席 [15] 商业模式演进与商业化路径 - 公司业务从免费的公共竞技场，演进至提供B端定制化评测服务，标志着AI评测赛道加速商业化 [17][21] - B端产品“AI Evaluations”允许企业在私有、脱敏数据环境中测试模型，评估模型在听话、合规、多步任务等方面的表现 [21] - 公司计划利用平台积累的数千万条人类偏好数据，训练自己的RLHF模型，使评测结果能反向参与模型优化，嵌入模型研发链条 [21] 面临的争议与挑战 - 众包模式被批评“不够专业”、“易被操纵”，用户投票可能受答案长度、风格（如使用emoji）、格式美观度影响，而非正确性或有用性 [3][22][23][24] - 有抽查数据显示，在500组投票中，52%的获胜回答包含事实错误，39%的投票结果与事实严重不符 [24] - Meta曾为其Llama 4系列模型提交36个私有变体在平台反复测试“刷分”，针对投票偏好进行优化，其实验性对话模型曾冲至总榜第二，但公开版仅排第32名 [25] - 资源充足的科技巨头可能通过反复测试来“刷分”，这重现了行业试图摆脱的“应试准备”问题 [26] 行业竞争与评估范式演进 - 针对众包模式的争议催生了新的竞争形态，例如Scale AI推出由律师、教授等专业人士直接打分的“Seal Showdown”服务 [28] - 评测范式向更垂直化、实战化方向外扩，例如出现让模型在模拟加密市场环境中进行交易对决，以收益定胜负的产品 [29] - 行业对模型评估的理解正走向更深入、更多维的阶段，强调更深度的专家标注和更接近真实世界的挑战任务 [29][30]