多模态大模型基准测试冗余度

搜索文档
你正在做的大模型评测,可能有一半都是无用功 | 上海AI Lab&上交&浙大出品
量子位· 2025-03-18 19:53
文章核心观点 - 当下流行的多模态大模型基准测试中普遍存在大量冗余,通过提出的冗余度框架可优化基准设计、提升MLLM评估效率,创造更精简有效的评估生态系统 [1][37][38] 研究背景 - 训练好的多模态大模型需通过繁杂基准测试评估性能,但测试环节中多模态基准存在明显冗余性 [6][7] 研究方法 - 定义三类冗余度,包括基准内子维度之间、基准内测试实例、单个垂类领域内不同基准的冗余度,并针对性给出冗余度框架 [10][11][12] - 采用斯皮尔曼排名相关系数、皮尔逊线性相关系数和R分数描述两组性能数字之间的相关性 [17] - 通过关注给定基准测试中总体性能最高的Top - K MLLMs简化冗余分析 [18] 实验结果及分析 探索维度冗余 - MMBench基准测试结果显示,图像情感和社会关系评估能力存在显著重叠,结构化图像 - 文本理解与多个其他维度有明显冗余,名人识别与其他维度相对独立 [22] - Bottom - 50模型平均维度冗余度显著高于Top - 50模型,Bottom - 50模型基础能力薄弱使各维度性能改进同步性强,维度区分度降低;Top - 50模型基础能力体系完备,专项优化引发维度表现差异增长 [23] 探索实例冗余 - 大多数现有MLLM基准测试对Top - 50和Bottom - 50 MLLMs排名时实例表现出显著冗余,至少50%的实例是冗余的,减少一半实例数量不显著影响排名 [25] - MLLMs能力越强,基准测试实例的冗余越低,准确排名高性能MLLMs需要更多实例,低性能MLLMs用更少实例即可 [27][28] 探索跨基准冗余 - 数学领域的MathVista、MathVision、MathVerse和DynaMath四个基准测试相关性不算特别强,MathVista冗余最少,MathVerse和MathVision冗余高 [31] - MathVista包含30% - 40%非传统数学问题,移除通用VQA任务和CLEVR衍生问题后,其与其他基准测试的冗余显著增加 [32][34][36] 领域内基准设计原则 - 代表某一垂类领域核心能力的基准应与其他领域内基准表现出相对高的冗余,专注独特能力填补垂类领域空缺的基准应与其他基准显示较低的冗余 [38] - 确定基准内某些维度是否单独评估或合并、准确评估所需最小且足够的实例数量、特定领域内引入新基准的必要性 [39] - 确定某一基准是否偏离领域分布、识别评估领域内模型性能所需的锚定基准 [41]