模型评测 - 财报，业绩电话会，研报，新闻

模型评测

搜索文档

36氪· 2026-01-15 21:41

公司概况与融资 - AI大模型评测机构LMArena于近期完成1.5亿美元融资，估值达到17亿美元，成为独角兽公司 [2] - 公司起源于伯克利校园项目，其核心业务是通过众包匿名对战模式，让用户投票评估AI模型 [2] - 公司在2025年9月推出B端评估服务“AI Evaluations”，产品上线4个月后年化经常性收入突破3000万美元，客户包括OpenAI、Google、xAI等头部AI企业 [2] 行业痛点与旧评估体系失效 - 传统基于有限基准测试和排行榜的AI模型评估体系逐渐失灵，模型容易针对题库“过拟合”，导致能力趋同、创造力下降 [4][6][7] - 行业出现“AI疲劳”，模型参数升级与榜单刷新带来的兴奋感衰减，产品落地节奏跟不上宣传节奏 [4] - 旧的评估体系塑造了不健康的激励机制，引导模型优化目标向固定解法收敛，而非真正的理解与推理 [5][6][7] LMArena的解决方案与核心机制 - 平台核心设计为用户提问后，系统随机抽取两个匿名模型作答，用户从有用性、准确性等角度对并排展示的答案进行投票 [12] - 平台采用类似国际象棋的Elo评级系统，通过累计数万至数十万次用户投票对比来计算模型动态排名 [13] - 平台日均进行上千场匿名对战，每月产生超过6000万次模型对话，覆盖超过150个国家，月活跃用户达到500万 [2][19] - 平台设有Arena-Expert模块，筛选约5.5%的“专家级”提示作为高压测试样本，并衍生出Code Arena、Image Arena等专项竞技场 [14] 平台影响力与行业认可 - 平台已成为行业默认的“试金石”，几乎所有头部模型厂商均已接入，包括OpenAI、Anthropic、Google、Meta、DeepSeek等 [19] - 头部公司主动将未公开发布的新品（如Google的Gemini 2.5 Flash Image）接入平台进行内测 [9][10][19] - 2025年8月，匿名模型“nano-banana”在图像编辑竞技场累计获得超500万次社区投票，其中直接胜出票达250万张，带动平台当月访问量增长10倍，月活突破300万，后该模型被证实为Google的Gemini 2.5 Flash Image [9][10] - 在2025年11月的中文榜单中，国产大模型实现对国际模型的系统性反超，前十名中占据八席 [15] 商业模式演进与商业化路径 - 公司业务从免费的公共竞技场，演进至提供B端定制化评测服务，标志着AI评测赛道加速商业化 [17][21] - B端产品“AI Evaluations”允许企业在私有、脱敏数据环境中测试模型，评估模型在听话、合规、多步任务等方面的表现 [21] - 公司计划利用平台积累的数千万条人类偏好数据，训练自己的RLHF模型，使评测结果能反向参与模型优化，嵌入模型研发链条 [21] 面临的争议与挑战 - 众包模式被批评“不够专业”、“易被操纵”，用户投票可能受答案长度、风格（如使用emoji）、格式美观度影响，而非正确性或有用性 [3][22][23][24] - 有抽查数据显示，在500组投票中，52%的获胜回答包含事实错误，39%的投票结果与事实严重不符 [24] - Meta曾为其Llama 4系列模型提交36个私有变体在平台反复测试“刷分”，针对投票偏好进行优化，其实验性对话模型曾冲至总榜第二，但公开版仅排第32名 [25] - 资源充足的科技巨头可能通过反复测试来“刷分”，这重现了行业试图摆脱的“应试准备”问题 [26] 行业竞争与评估范式演进 - 针对众包模式的争议催生了新的竞争形态，例如Scale AI推出由律师、教授等专业人士直接打分的“Seal Showdown”服务 [28] - 评测范式向更垂直化、实战化方向外扩，例如出现让模型在模拟加密市场环境中进行交易对决，以收益定胜负的产品 [29] - 行业对模型评估的理解正走向更深入、更多维的阶段，强调更深度的专家标注和更接近真实世界的挑战任务 [29][30]

Artificial Intelligence

模型评测

Artificial Intelligence

AI Evaluations

Qwen3

GLM - 4.6

Artificial Intelligence

模型评测

Artificial Intelligence

AI Evaluations

Qwen3

GLM - 4.6

基模下半场：开源、人才、模型评估，今天的关键问题到底是什么？

Founder Park· 2025-07-31 22:57

中国开源模型的崛起 - 中国开源模型如Kimi、Qwen、智谱GLM-4.5等近期密集发布，Hugging Face热门榜几乎被中国模型垄断[1][3] - 中国模型发展速度惊人，一旦模式被验证可行，中国擅长集中资源快速工程化实现[5][8] - 中国开源模型可能成为发展中国家的模型标准，尤其在"全球南方"市场占据优势[6][7] 中美AI竞争格局 - 大模型竞争已演变为中美之间的比拼，开源标准可能转向中国模型[3] - 美国如Meta等公司正加大投入，但中国在公私合作和资源投入方面更具优势[8][10] - 中国机构如清华大学已拥有先进语言模型，而美国部分高校资源相对不足[8][10] 模型训练与人才 - 不同机构间人才差异并不显著，模型好坏更多取决于资源利用效率[15][16] - 顶尖实验室内部普遍存在混乱，但关键在于能否产出有效模型[19][20] - 实验速度和基础设施比单纯追求"天才"更重要，需要重视团队协作价值[21][22] 模型评测与基准测试 - 当前更需要好的基准测试来评估模型能力，而非仅关注技术细节[3][24] - 制作高质量评测的门槛越来越高，但可能带来新的话语权[24][25] - 评测领域存在巨大蓝海机会，定义新任务不需要庞大算力[26] 强化学习与推理技术 - RL无法泛化到数学和代码之外的说法被夸大，这些领域只是更容易验证[32] - GSPO算法通过分组序列策略优化显著提升样本效率[28][29] - 模型推理研究进展有限，蒸馏小模型比RL更实用[27] 未来挑战与趋势 - 验证难度将越来越大，特别是在科学发现等复杂领域[36][37] - 智能体相关能力可能成为未来关键基准，参数规模扩张不再是主要路径[23] - 行业需要改变模型优势的传达方式，超越单纯基准测试分数[24]