公司概况与融资 - AI大模型评测机构LMArena于近期完成1.5亿美元融资,估值达到17亿美元,成为独角兽公司 [2] - 公司起源于伯克利校园项目,其核心业务是通过众包匿名对战模式,让用户投票评估AI模型 [2] - 公司在2025年9月推出B端评估服务“AI Evaluations”,产品上线4个月后年化经常性收入突破3000万美元,客户包括OpenAI、Google、xAI等头部AI企业 [2] 行业痛点与旧评估体系失效 - 传统基于有限基准测试和排行榜的AI模型评估体系逐渐失灵,模型容易针对题库“过拟合”,导致能力趋同、创造力下降 [4][6][7] - 行业出现“AI疲劳”,模型参数升级与榜单刷新带来的兴奋感衰减,产品落地节奏跟不上宣传节奏 [4] - 旧的评估体系塑造了不健康的激励机制,引导模型优化目标向固定解法收敛,而非真正的理解与推理 [5][6][7] LMArena的解决方案与核心机制 - 平台核心设计为用户提问后,系统随机抽取两个匿名模型作答,用户从有用性、准确性等角度对并排展示的答案进行投票 [12] - 平台采用类似国际象棋的Elo评级系统,通过累计数万至数十万次用户投票对比来计算模型动态排名 [13] - 平台日均进行上千场匿名对战,每月产生超过6000万次模型对话,覆盖超过150个国家,月活跃用户达到500万 [2][19] - 平台设有Arena-Expert模块,筛选约5.5%的“专家级”提示作为高压测试样本,并衍生出Code Arena、Image Arena等专项竞技场 [14] 平台影响力与行业认可 - 平台已成为行业默认的“试金石”,几乎所有头部模型厂商均已接入,包括OpenAI、Anthropic、Google、Meta、DeepSeek等 [19] - 头部公司主动将未公开发布的新品(如Google的Gemini 2.5 Flash Image)接入平台进行内测 [9][10][19] - 2025年8月,匿名模型“nano-banana”在图像编辑竞技场累计获得超500万次社区投票,其中直接胜出票达250万张,带动平台当月访问量增长10倍,月活突破300万,后该模型被证实为Google的Gemini 2.5 Flash Image [9][10] - 在2025年11月的中文榜单中,国产大模型实现对国际模型的系统性反超,前十名中占据八席 [15] 商业模式演进与商业化路径 - 公司业务从免费的公共竞技场,演进至提供B端定制化评测服务,标志着AI评测赛道加速商业化 [17][21] - B端产品“AI Evaluations”允许企业在私有、脱敏数据环境中测试模型,评估模型在听话、合规、多步任务等方面的表现 [21] - 公司计划利用平台积累的数千万条人类偏好数据,训练自己的RLHF模型,使评测结果能反向参与模型优化,嵌入模型研发链条 [21] 面临的争议与挑战 - 众包模式被批评“不够专业”、“易被操纵”,用户投票可能受答案长度、风格(如使用emoji)、格式美观度影响,而非正确性或有用性 [3][22][23][24] - 有抽查数据显示,在500组投票中,52%的获胜回答包含事实错误,39%的投票结果与事实严重不符 [24] - Meta曾为其Llama 4系列模型提交36个私有变体在平台反复测试“刷分”,针对投票偏好进行优化,其实验性对话模型曾冲至总榜第二,但公开版仅排第32名 [25] - 资源充足的科技巨头可能通过反复测试来“刷分”,这重现了行业试图摆脱的“应试准备”问题 [26] 行业竞争与评估范式演进 - 针对众包模式的争议催生了新的竞争形态,例如Scale AI推出由律师、教授等专业人士直接打分的“Seal Showdown”服务 [28] - 评测范式向更垂直化、实战化方向外扩,例如出现让模型在模拟加密市场环境中进行交易对决,以收益定胜负的产品 [29] - 行业对模型评估的理解正走向更深入、更多维的阶段,强调更深度的专家标注和更接近真实世界的挑战任务 [29][30]
给大模型排名,两个博士一年干出17亿美金AI独角兽
36氪·2026-01-15 21:41