给大模型排名次，两个博士一年干出120亿独角兽，却被质疑产品数据准确性

公司概况与起源 - LMArena是一家从加州大学伯克利分校等高校合作发起的大型模型系统组织孵化出的创业公司，其前身是2023年创立的学术项目Chatbot Arena [5][6] - 公司于2025年1月注册为商业化实体，由Anastasios N. Angelopoulos任首席执行官，Wei-Lin Chiang任首席技术官，Ion Stoica是联合创始人兼顾问 [8] - 创始团队背景强大：Ion Stoica是UC伯克利教授及连续创业者；Angelopoulos专攻可信赖AI系统；Chiang研究分布式系统和深度学习框架 [9] 业务模式与平台运营 - 公司核心业务是构建一个公开透明的大语言模型评估平台，通过用户匿名投票比较不同模型的答案来反映模型在现实世界中的应用情况 [2][6] - 平台运作流程是用户提出问题，系统生成两个不同答案，用户选择偏好项（“左边更好”、“右边更好”、“平局”、“都不好”）[12] - 截至2025年4月，平台已吸引数百万参与者，记录超过300万次比较，评估了400多个模型，包括GPT-4、Gemini、Llama等商业和开源模型 [9] - 公司旨在通过实时、众包的用户反馈来修正静态基准测试的缺陷，防止模型通过“记忆”污染数据获得高分，并与模型供应商合作进行预发布测试 [10][12] 融资历程与市场认可 - 公司在成立一年内完成两轮融资，种子轮融资1亿美元，A轮融资1.5亿美元，估值达到17亿美元（约人民币120亿元），成为独角兽 [3][15] - 种子轮融资由Andreessen Horowitz和UC Investments领投；A轮融资由Felicis Ventures和UC Investments共同牵头，a16z、Lightspeed等多家顶尖风投参与 [3][14][15] - 投资方a16z认为，随着AI模型可靠性需求增长，特别是在医疗、法律等受监管行业，中立客观的评估变得必不可少，LMArena构建的全球最大规模用户偏好实时数据集构成了先发优势 [13][14] 行业竞争格局 - AI大模型测评市场呈现多元格局，LMArena被誉为“黄金标准”或“人气榜”，其特色是采用匿名双盲测试和基于用户主观偏好的Elo排名系统 [16] - 主要竞争者包括：由学术界推动的LiveBench，其排名基于最新数学竞赛等有标准答案的数据集，旨在检验模型真实推理能力；以及基于实际API调用量排名的OpenRouter [17][18] - 中国市场存在如OpenCompass、SuperCLUE等关注中文理解和本土化应用的榜单，但主要由研究机构和高校主导，商业化程度相对空白 [19] 面临的争议与挑战 - 公司商业模式面临可靠性争议，被质疑其完全依赖于不受控制的志愿者进行的游戏化劳动，用户可能没有动力认真思考，导致数据质量低下 [20] - 具体案例显示，用户曾投票支持一个数学上不正确但“看起来更合理”的答案，表明这种基于偏好的测评可能无法筛选出能生产高质量答案的模型 [21][22] - 公司领导层承认用户更喜欢带有表情符号和冗长的内容，而非实质性高质量内容，并称采用了各种方法来克服用户输入数据质量低下的问题 [23]