大模型评测 - 财报，业绩电话会，研报，新闻

大模型评测

搜索文档

36氪· 2026-01-19 15:29

公司融资与估值 - 美国AI初创公司LMArena完成A轮融资，融资额为1.5亿美元，投后估值达17亿美元（约120亿人民币）[1] - 本轮融资由Felicis Ventures和加州大学伯克利分校旗下的投资基金UC Investments领投，A16Z、光速创投、The House Fund、LDVP、Kleiner Perkins等美国知名VC跟投[1] - 公司估值在七个月内翻了三倍，其上一轮种子轮融资于2025年5月完成，当时估值为6亿美元[1] - 截至2026年初，公司员工总数仅有29人[1] 公司起源与产品 - LMArena起源于一个名为LMSYS Org的开源学术组织，该组织由来自加州大学伯克利分校、加州大学圣地亚哥分校、卡内基梅隆大学等名校的学生和教授发起[2] - 组织核心使命是通过开发开源模型、系统和数据集，使大模型的使用和评估变得平民化[2] - 其前身Chatbot Arena平台于2023年4月推出，并于2024年9月正式更名为LMArena[2] - 公司核心产品是一个大模型评测平台，核心理念是“匿名对战”，用户通过对比两个匿名模型的输出来投票决定胜负，从而为模型打分和排名[3] - 该平台解决了传统大模型评测方式面临的饱和、污染与脱节三大挑战[3][4] 市场地位与运营数据 - LMArena已成为全球大模型最权威的评测平台之一，其排名被AI行业广泛接受为最权威的“人类偏好”风向标[4] - 平台已有400多个大模型被打分和排名，每月有数百万个独立用户参与评测[4] - 包括OpenAI、谷歌以及国内各大AI公司在发布新模型时，都会将模型送至LMArena进行评测[4] 商业化进展 - 2025年初，LMArena正式注册为公司，开始从学术项目转向商业化发展[5] - 2025年9月，公司推出首个商业化产品AI Evaluations，主要面向开发AI大模型的企业或研究机构，为其提供模型评估服务[7] - 截至2025年12月，AI Evaluations的年度经常性收入已达到3000万美元[7] - 2025年初，公司推出了Inclusion Arena产品，通过API和SDK将测试嵌入真实AI应用以收集生产环境反馈[8] - 截至2025年7月，Inclusion Arena已收集了超过50万次的真实对战记录[8] 投资逻辑与未来展望 - 投资方A16Z认为LMArena的打分已成为评价AI大模型性能的事实标准，是AI产业发展的关键基础设施[7] - 公司打造了一个飞轮机制：用更多模型吸引更多用户，从而产生更多偏好数据，进而吸引更多模型加入，形成竞争壁垒[8] - 中立、持续的评测被认为是未来AI大模型监管的刚需，公司可能为受监管行业提供合规性支持[8] - 投资方畅想“LMArena认证”未来可能成为AI产品的“绿色认证”[8] - 平台上的用户评测次数未来可能从数百万次增长至数十亿次[8] 面临的挑战与争议 - 公司面临在商业压力下保持中立性的巨大挑战[9] - 2025年4月，有研究文章指责LMArena帮助部分AI公司操纵排名，例如Meta被指在发布Llama 4前私底下测试了27个模型变体，但只公开了表现最好的一个模型的得分[5][6] - 文章还认为平台偏向性地增加了Meta、OpenAI和谷歌等大厂模型的“对战”次数，使其获得不公平的排名优势[6] - 对于指责，LMArena回应“一些说法与事实不符”，并表示公布预发布模型的分数毫无意义[6] - 公司为维持透明度，会开源部分代码并定期发布对战数据集供研究者分析[6]