模型评测
搜索文档
给大模型排名,两个博士一年干出17亿美金AI独角兽
36氪· 2026-01-15 21:41
公司概况与融资 - AI大模型评测机构LMArena于近期完成1.5亿美元融资,估值达到17亿美元,成为独角兽公司 [2] - 公司起源于伯克利校园项目,其核心业务是通过众包匿名对战模式,让用户投票评估AI模型 [2] - 公司在2025年9月推出B端评估服务“AI Evaluations”,产品上线4个月后年化经常性收入突破3000万美元,客户包括OpenAI、Google、xAI等头部AI企业 [2] 行业痛点与旧评估体系失效 - 传统基于有限基准测试和排行榜的AI模型评估体系逐渐失灵,模型容易针对题库“过拟合”,导致能力趋同、创造力下降 [4][6][7] - 行业出现“AI疲劳”,模型参数升级与榜单刷新带来的兴奋感衰减,产品落地节奏跟不上宣传节奏 [4] - 旧的评估体系塑造了不健康的激励机制,引导模型优化目标向固定解法收敛,而非真正的理解与推理 [5][6][7] LMArena的解决方案与核心机制 - 平台核心设计为用户提问后,系统随机抽取两个匿名模型作答,用户从有用性、准确性等角度对并排展示的答案进行投票 [12] - 平台采用类似国际象棋的Elo评级系统,通过累计数万至数十万次用户投票对比来计算模型动态排名 [13] - 平台日均进行上千场匿名对战,每月产生超过6000万次模型对话,覆盖超过150个国家,月活跃用户达到500万 [2][19] - 平台设有Arena-Expert模块,筛选约5.5%的“专家级”提示作为高压测试样本,并衍生出Code Arena、Image Arena等专项竞技场 [14] 平台影响力与行业认可 - 平台已成为行业默认的“试金石”,几乎所有头部模型厂商均已接入,包括OpenAI、Anthropic、Google、Meta、DeepSeek等 [19] - 头部公司主动将未公开发布的新品(如Google的Gemini 2.5 Flash Image)接入平台进行内测 [9][10][19] - 2025年8月,匿名模型“nano-banana”在图像编辑竞技场累计获得超500万次社区投票,其中直接胜出票达250万张,带动平台当月访问量增长10倍,月活突破300万,后该模型被证实为Google的Gemini 2.5 Flash Image [9][10] - 在2025年11月的中文榜单中,国产大模型实现对国际模型的系统性反超,前十名中占据八席 [15] 商业模式演进与商业化路径 - 公司业务从免费的公共竞技场,演进至提供B端定制化评测服务,标志着AI评测赛道加速商业化 [17][21] - B端产品“AI Evaluations”允许企业在私有、脱敏数据环境中测试模型,评估模型在听话、合规、多步任务等方面的表现 [21] - 公司计划利用平台积累的数千万条人类偏好数据,训练自己的RLHF模型,使评测结果能反向参与模型优化,嵌入模型研发链条 [21] 面临的争议与挑战 - 众包模式被批评“不够专业”、“易被操纵”,用户投票可能受答案长度、风格(如使用emoji)、格式美观度影响,而非正确性或有用性 [3][22][23][24] - 有抽查数据显示,在500组投票中,52%的获胜回答包含事实错误,39%的投票结果与事实严重不符 [24] - Meta曾为其Llama 4系列模型提交36个私有变体在平台反复测试“刷分”,针对投票偏好进行优化,其实验性对话模型曾冲至总榜第二,但公开版仅排第32名 [25] - 资源充足的科技巨头可能通过反复测试来“刷分”,这重现了行业试图摆脱的“应试准备”问题 [26] 行业竞争与评估范式演进 - 针对众包模式的争议催生了新的竞争形态,例如Scale AI推出由律师、教授等专业人士直接打分的“Seal Showdown”服务 [28] - 评测范式向更垂直化、实战化方向外扩,例如出现让模型在模拟加密市场环境中进行交易对决,以收益定胜负的产品 [29] - 行业对模型评估的理解正走向更深入、更多维的阶段,强调更深度的专家标注和更接近真实世界的挑战任务 [29][30]
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
Founder Park· 2025-07-31 22:57
中国开源模型的崛起 - 中国开源模型如Kimi、Qwen、智谱GLM-4.5等近期密集发布,Hugging Face热门榜几乎被中国模型垄断[1][3] - 中国模型发展速度惊人,一旦模式被验证可行,中国擅长集中资源快速工程化实现[5][8] - 中国开源模型可能成为发展中国家的模型标准,尤其在"全球南方"市场占据优势[6][7] 中美AI竞争格局 - 大模型竞争已演变为中美之间的比拼,开源标准可能转向中国模型[3] - 美国如Meta等公司正加大投入,但中国在公私合作和资源投入方面更具优势[8][10] - 中国机构如清华大学已拥有先进语言模型,而美国部分高校资源相对不足[8][10] 模型训练与人才 - 不同机构间人才差异并不显著,模型好坏更多取决于资源利用效率[15][16] - 顶尖实验室内部普遍存在混乱,但关键在于能否产出有效模型[19][20] - 实验速度和基础设施比单纯追求"天才"更重要,需要重视团队协作价值[21][22] 模型评测与基准测试 - 当前更需要好的基准测试来评估模型能力,而非仅关注技术细节[3][24] - 制作高质量评测的门槛越来越高,但可能带来新的话语权[24][25] - 评测领域存在巨大蓝海机会,定义新任务不需要庞大算力[26] 强化学习与推理技术 - RL无法泛化到数学和代码之外的说法被夸大,这些领域只是更容易验证[32] - GSPO算法通过分组序列策略优化显著提升样本效率[28][29] - 模型推理研究进展有限,蒸馏小模型比RL更实用[27] 未来挑战与趋势 - 验证难度将越来越大,特别是在科学发现等复杂领域[36][37] - 智能体相关能力可能成为未来关键基准,参数规模扩张不再是主要路径[23] - 行业需要改变模型优势的传达方式,超越单纯基准测试分数[24]