Workflow
AI Evaluations
icon
搜索文档
29个人,估值120亿
36氪· 2026-01-19 15:29
公司融资与估值 - 美国AI初创公司LMArena完成A轮融资,融资额为1.5亿美元,投后估值达17亿美元(约120亿人民币)[1] - 本轮融资由Felicis Ventures和加州大学伯克利分校旗下的投资基金UC Investments领投,A16Z、光速创投、The House Fund、LDVP、Kleiner Perkins等美国知名VC跟投[1] - 公司估值在七个月内翻了三倍,其上一轮种子轮融资于2025年5月完成,当时估值为6亿美元[1] - 截至2026年初,公司员工总数仅有29人[1] 公司起源与产品 - LMArena起源于一个名为LMSYS Org的开源学术组织,该组织由来自加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的学生和教授发起[2] - 组织核心使命是通过开发开源模型、系统和数据集,使大模型的使用和评估变得平民化[2] - 其前身Chatbot Arena平台于2023年4月推出,并于2024年9月正式更名为LMArena[2] - 公司核心产品是一个大模型评测平台,核心理念是“匿名对战”,用户通过对比两个匿名模型的输出来投票决定胜负,从而为模型打分和排名[3] - 该平台解决了传统大模型评测方式面临的饱和、污染与脱节三大挑战[3][4] 市场地位与运营数据 - LMArena已成为全球大模型最权威的评测平台之一,其排名被AI行业广泛接受为最权威的“人类偏好”风向标[4] - 平台已有400多个大模型被打分和排名,每月有数百万个独立用户参与评测[4] - 包括OpenAI、谷歌以及国内各大AI公司在发布新模型时,都会将模型送至LMArena进行评测[4] 商业化进展 - 2025年初,LMArena正式注册为公司,开始从学术项目转向商业化发展[5] - 2025年9月,公司推出首个商业化产品AI Evaluations,主要面向开发AI大模型的企业或研究机构,为其提供模型评估服务[7] - 截至2025年12月,AI Evaluations的年度经常性收入已达到3000万美元[7] - 2025年初,公司推出了Inclusion Arena产品,通过API和SDK将测试嵌入真实AI应用以收集生产环境反馈[8] - 截至2025年7月,Inclusion Arena已收集了超过50万次的真实对战记录[8] 投资逻辑与未来展望 - 投资方A16Z认为LMArena的打分已成为评价AI大模型性能的事实标准,是AI产业发展的关键基础设施[7] - 公司打造了一个飞轮机制:用更多模型吸引更多用户,从而产生更多偏好数据,进而吸引更多模型加入,形成竞争壁垒[8] - 中立、持续的评测被认为是未来AI大模型监管的刚需,公司可能为受监管行业提供合规性支持[8] - 投资方畅想“LMArena认证”未来可能成为AI产品的“绿色认证”[8] - 平台上的用户评测次数未来可能从数百万次增长至数十亿次[8] 面临的挑战与争议 - 公司面临在商业压力下保持中立性的巨大挑战[9] - 2025年4月,有研究文章指责LMArena帮助部分AI公司操纵排名,例如Meta被指在发布Llama 4前私底下测试了27个模型变体,但只公开了表现最好的一个模型的得分[5][6] - 文章还认为平台偏向性地增加了Meta、OpenAI和谷歌等大厂模型的“对战”次数,使其获得不公平的排名优势[6] - 对于指责,LMArena回应“一些说法与事实不符”,并表示公布预发布模型的分数毫无意义[6] - 公司为维持透明度,会开源部分代码并定期发布对战数据集供研究者分析[6]
29个人,估值120亿
投中网· 2026-01-19 14:54
公司融资与估值 - 美国AI初创公司LMArena完成A轮融资,融资额为1.5亿美元,投后估值达17亿美元(约120亿人民币)[3] - 本轮融资由Felicis Ventures和UC Investments领投,A16Z、光速创投等多家知名VC跟投[3] - 公司估值在七个月内从6亿美元(种子轮)增长至17亿美元,翻了近三倍,快速晋升独角兽[4] - 公司员工总数仅有29人,相当于人均估值近4亿元人民币[5] 公司起源与产品 - LMArena起源于开源学术组织LMSYS Org,该组织由加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的师生发起,核心使命是使大模型的使用和评估平民化[8] - 组织华人含量高,多名核心成员为华人学者[9] - 最初为解决开源模型Vicuna的可靠测试需求,于2023年4月推出开放测试平台Chatbot Arena,后于2024年9月更名为LMArena[9] - 产品核心理念是“匿名对战”,用户输入提示词后,系统随机挑选两个AI模型生成输出,由用户在不知情的情况下投票选择胜者,以此积累分数进行排名[10] - 该平台已成为全球最权威的大模型评测平台之一,已有400多个大模型被打分和排名,每月有数百万独立用户参与评测[14] 产品价值与行业痛点 - 传统大模型评测方式(如MMLU、GSM8K)面临饱和、污染与脱节三大挑战[11] - 饱和指模型刷题能力逼近人类上限,测试区分度变小[11] - 污染指公开的测试考题可能被模型针对性训练,污染测试结果[12] - 脱节指考题与真实使用场景不同,导致“高分低能”[13] - LMArena通过收集真实人类偏好,将评价方式从“考场考试”改为“竞技场决斗”,一举解决了上述三大问题[14] - 其排名已被AI行业广泛接受为最权威的“人类偏好”风向标,各大公司发布新模型都会送测[14] 商业化进展与收入 - 2025年初,LMArena正式注册为公司,开始从学术项目转向商业化发展[16] - 2025年9月,公司推出首个商业化产品AI Evaluations,主要面向开发AI大模型的企业或研究机构,提供模型评估服务[22] - 截至2025年12月,AI Evaluations的年度经常性收入(ARR)已达到3000万美元[22] 发展潜力与投资逻辑 - 投资方A16Z认为LMArena的打分已成为评价AI大模型性能的事实标准,是AI产业发展的“关键基础设施”[22] - 公司打造了成功的飞轮机制:用更多模型吸引更多用户,产生更多偏好数据,进而吸引更多模型加入,形成难以复制的壁垒[22] - 中立、持续的评测未来将是AI大模型监管的刚需,可为受监管行业(如医院)提供合规性支持,“LMArena认证”可能成为AI产品的“绿色认证”[23] - 平台上的用户评测次数未来可能从数百万次增长至数十亿次[23] - 2025年初推出的Inclusion Arena产品,通过API/SDK将测试嵌入真实AI应用以收集生产环境反馈,截至2025年7月已收集超过50万次真实对战记录,构建了“AI的持续集成/持续部署管道”[23] 面临的挑战与争议 - 公司面临在商业压力下保持中立性的巨大挑战[24] - 曾被质疑帮助部分AI公司操纵排名,例如Meta被指在发布Llama 4前私底下测试了27个模型变体,但只公开了表现最好的一个模型的得分[18] - 还被指偏向性地增加Meta、OpenAI和谷歌等大厂模型的“对战”次数,使其获得不公平的排名优势[18] - 公司回应称一些指责与事实不符,并认为公布预发布模型的分数毫无意义[19] - 为维持透明度,公司会开源部分代码并定期发布对战数据集,但公正性争议可能伴随其商业化进程[20]
给大模型排名,两个博士一年干出17亿美金AI独角兽
36氪· 2026-01-15 21:41
公司概况与融资 - AI大模型评测机构LMArena于近期完成1.5亿美元融资,估值达到17亿美元,成为独角兽公司 [2] - 公司起源于伯克利校园项目,其核心业务是通过众包匿名对战模式,让用户投票评估AI模型 [2] - 公司在2025年9月推出B端评估服务“AI Evaluations”,产品上线4个月后年化经常性收入突破3000万美元,客户包括OpenAI、Google、xAI等头部AI企业 [2] 行业痛点与旧评估体系失效 - 传统基于有限基准测试和排行榜的AI模型评估体系逐渐失灵,模型容易针对题库“过拟合”,导致能力趋同、创造力下降 [4][6][7] - 行业出现“AI疲劳”,模型参数升级与榜单刷新带来的兴奋感衰减,产品落地节奏跟不上宣传节奏 [4] - 旧的评估体系塑造了不健康的激励机制,引导模型优化目标向固定解法收敛,而非真正的理解与推理 [5][6][7] LMArena的解决方案与核心机制 - 平台核心设计为用户提问后,系统随机抽取两个匿名模型作答,用户从有用性、准确性等角度对并排展示的答案进行投票 [12] - 平台采用类似国际象棋的Elo评级系统,通过累计数万至数十万次用户投票对比来计算模型动态排名 [13] - 平台日均进行上千场匿名对战,每月产生超过6000万次模型对话,覆盖超过150个国家,月活跃用户达到500万 [2][19] - 平台设有Arena-Expert模块,筛选约5.5%的“专家级”提示作为高压测试样本,并衍生出Code Arena、Image Arena等专项竞技场 [14] 平台影响力与行业认可 - 平台已成为行业默认的“试金石”,几乎所有头部模型厂商均已接入,包括OpenAI、Anthropic、Google、Meta、DeepSeek等 [19] - 头部公司主动将未公开发布的新品(如Google的Gemini 2.5 Flash Image)接入平台进行内测 [9][10][19] - 2025年8月,匿名模型“nano-banana”在图像编辑竞技场累计获得超500万次社区投票,其中直接胜出票达250万张,带动平台当月访问量增长10倍,月活突破300万,后该模型被证实为Google的Gemini 2.5 Flash Image [9][10] - 在2025年11月的中文榜单中,国产大模型实现对国际模型的系统性反超,前十名中占据八席 [15] 商业模式演进与商业化路径 - 公司业务从免费的公共竞技场,演进至提供B端定制化评测服务,标志着AI评测赛道加速商业化 [17][21] - B端产品“AI Evaluations”允许企业在私有、脱敏数据环境中测试模型,评估模型在听话、合规、多步任务等方面的表现 [21] - 公司计划利用平台积累的数千万条人类偏好数据,训练自己的RLHF模型,使评测结果能反向参与模型优化,嵌入模型研发链条 [21] 面临的争议与挑战 - 众包模式被批评“不够专业”、“易被操纵”,用户投票可能受答案长度、风格(如使用emoji)、格式美观度影响,而非正确性或有用性 [3][22][23][24] - 有抽查数据显示,在500组投票中,52%的获胜回答包含事实错误,39%的投票结果与事实严重不符 [24] - Meta曾为其Llama 4系列模型提交36个私有变体在平台反复测试“刷分”,针对投票偏好进行优化,其实验性对话模型曾冲至总榜第二,但公开版仅排第32名 [25] - 资源充足的科技巨头可能通过反复测试来“刷分”,这重现了行业试图摆脱的“应试准备”问题 [26] 行业竞争与评估范式演进 - 针对众包模式的争议催生了新的竞争形态,例如Scale AI推出由律师、教授等专业人士直接打分的“Seal Showdown”服务 [28] - 评测范式向更垂直化、实战化方向外扩,例如出现让模型在模拟加密市场环境中进行交易对决,以收益定胜负的产品 [29] - 行业对模型评估的理解正走向更深入、更多维的阶段,强调更深度的专家标注和更接近真实世界的挑战任务 [29][30]