LMEval - 财报，业绩电话会，研报，新闻

LMEval

搜索文档

36氪· 2025-05-29 07:34

AI大模型评测现状 - AI大模型评测目前处于"百家争鸣"状态，包括清华大学C-Eval、上海交通大学CMMLU、伯克利Chatbot Arena等学术机构榜单，以及红杉中国xbench等民间测试工具 [3] - 当前评测存在刷榜问题，模型通过针对性训练提高特定榜单成绩，但泛化能力未真正提升，如GSM8k和MATH测试中模型正确率可达80% [13] - Meta的Llama 4通过提供特殊版本成为大模型竞技场排名第一的开源模型，显示当前评测体系存在漏洞 [8] 谷歌LMEval框架 - 谷歌推出开源框架LMEval，旨在为大语言模型和多模态模型提供标准化评测工具，简化评测流程 [4] - LMEval支持跨平台测试（Azure/AWS/HuggingFace等），覆盖文本/图像/代码多领域，并能识别模型规避策略 [6] - 框架引入Giskard安全评分机制，测试数据本地加密存储，确保安全性 [6] - LMEval并非直接榜单，而是标准化评测流程，解决多平台API/数据格式不统一问题 [16][17] 行业竞争格局 - 大模型竞技场排名显示，Google Gemini 2.9 Pro以1439分领先，Meta Llama 4以1417分紧随其后，OpenAI GPT-4以1418分位列第三 [14] - 成本对比显示，Gemini 2.0 Flash每输入输出价格为$0.17，低于Llama 4 Maverick的$0.19-$0.49和GPT-40的$4.38 [11] - 性能指标上，Llama 4在LiveCodeBench(49.4vs36.0)、MMLU Pro(82.2vs79.1)等测试中领先Gemini [10] 行业挑战 - 当前评测体系存在"基准作弊"问题，微软CEO纳德拉直言AGI里程碑宣称只是无意义的刷榜行为 [13] - 科学/长效/真实构成"不可能三角"，类似PC/手机行业针对评测软件优化的情况在AI领域重现 [16] - 去中心化解决方案导致开发者需应对多套测试标准，大幅增加时间成本 [16]

你正在做的大模型评测，可能有一半都是无用功 | 上海AI Lab&上交&浙大出品

量子位· 2025-03-18 19:53

文章核心观点 - 当下流行的多模态大模型基准测试中普遍存在大量冗余，通过提出的冗余度框架可优化基准设计、提升MLLM评估效率，创造更精简有效的评估生态系统 [1][37][38] 研究背景 - 训练好的多模态大模型需通过繁杂基准测试评估性能，但测试环节中多模态基准存在明显冗余性 [6][7] 研究方法 - 定义三类冗余度，包括基准内子维度之间、基准内测试实例、单个垂类领域内不同基准的冗余度，并针对性给出冗余度框架 [10][11][12] - 采用斯皮尔曼排名相关系数、皮尔逊线性相关系数和R分数描述两组性能数字之间的相关性 [17] - 通过关注给定基准测试中总体性能最高的Top - K MLLMs简化冗余分析 [18] 实验结果及分析探索维度冗余 - MMBench基准测试结果显示，图像情感和社会关系评估能力存在显著重叠，结构化图像 - 文本理解与多个其他维度有明显冗余，名人识别与其他维度相对独立 [22] - Bottom - 50模型平均维度冗余度显著高于Top - 50模型，Bottom - 50模型基础能力薄弱使各维度性能改进同步性强，维度区分度降低；Top - 50模型基础能力体系完备，专项优化引发维度表现差异增长 [23] 探索实例冗余 - 大多数现有MLLM基准测试对Top - 50和Bottom - 50 MLLMs排名时实例表现出显著冗余，至少50%的实例是冗余的，减少一半实例数量不显著影响排名 [25] - MLLMs能力越强，基准测试实例的冗余越低，准确排名高性能MLLMs需要更多实例，低性能MLLMs用更少实例即可 [27][28] 探索跨基准冗余 - 数学领域的MathVista、MathVision、MathVerse和DynaMath四个基准测试相关性不算特别强，MathVista冗余最少，MathVerse和MathVision冗余高 [31] - MathVista包含30% - 40%非传统数学问题，移除通用VQA任务和CLEVR衍生问题后，其与其他基准测试的冗余显著增加 [32][34][36] 领域内基准设计原则 - 代表某一垂类领域核心能力的基准应与其他领域内基准表现出相对高的冗余，专注独特能力填补垂类领域空缺的基准应与其他基准显示较低的冗余 [38] - 确定基准内某些维度是否单独评估或合并、准确评估所需最小且足够的实例数量、特定领域内引入新基准的必要性 [39] - 确定某一基准是否偏离领域分布、识别评估领域内模型性能所需的锚定基准 [41]