GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式
量子位·2025-05-16 09:24

文章核心观点 - 多模态大模型(MLLM)的评估正从简单的任务分数堆砌,转向科学评估其内部知识迁移与协同泛化能力,这被认为是AI竞赛下半场决定胜负的关键[1] - 一篇被ICML'25录用的论文提出了一套全新的评测框架General-Level和配套数据集General-Bench,旨在为多模态通才模型提供公平、全面、科学的评估基础设施[1][2] - 该框架通过一个五级段位体系(从Level-1到Level-5)量化模型从“专才”到“全才”的通用能力进阶,并已落地为覆盖700多个任务、32.5万+测试样本的超大规模评测基准和公开排行榜[2][3][12] General-Level五级段位评估体系 - 评估核心:该体系的核心在于衡量模型的协同泛化效应,即模型将一种模态或任务中学到的知识迁移提升到另一种模态或任务的能力,追求1+1>2的效果[3] - 段位定义: - Level-1 专家型选手:指在各单项任务上微调到极致的专精模型(SOTA)[6] - Level-2 入门通才:模型能支持多种模态和任务,但尚未体现出协同增益效应,属于“一专多能”但未超越专精模型[11] - Level-3 任务级协同:模型通过多任务联合学习,在某些任务上的成绩超越了该任务的专精模型SOTA,展现出任务层面的协同[11] - Level-4 范式级协同:模型在“理解”与“生成”两大任务范式之间形成协同,具备“生成-理解一体化”的推理能力[7][11] - Level-5 全模态完全协同:模型在跨模态、跨任务范畴达成全面协同,并且与语言智能相互增强,这是理想的AGI状态,但目前尚无模型达到[7][8][9] - 现状与意义:该体系将评估视角从堆叠分数提升到考察知识迁移能力,为行业描绘了从专才到通才的清晰进阶路线图[12][13] 目前排行榜中模型主要集中在Level-2和Level-3,达到Level-4的模型凤毛麟角,Level-5仍为空缺[58][69][72] General-Bench评测基准 - 定位与规模:被誉为当前规模最大、范畴最广、任务类型最全面的多模态通才AI评测基准,是一张“超级考卷”[14][15] - 覆盖广度:覆盖图像、视频、音频、3D以及语言五大核心模态,实现了从感知、理解到生成的全链路覆盖[15] - 任务深度与类型:不仅涵盖大量传统理解类任务(如分类、检测、问答),更纳入了丰富的生成类任务(如图像、视频、音频生成等),且所有任务均支持自由作答,依据原生开放指标评估[15] - 数据规模与领域:汇集了700余个任务、超过32.5万个测试样本,并细分为145项具体技能,跨越29个跨学科知识领域,包括自然科学、工程、医疗、社会科学等[17] - 动态与开放:样本总量达325,876并保持开放动态增长,确保了基准的长期生命力[18] 多Scope Leaderboard排行榜设计 - 设计目的:为了兼顾评测全面性与参与门槛,设计了多层次的榜单Scope分层解耦机制,允许能力各异的模型选择合适范围参与比较[20] - Scope-A 全谱英雄榜:难度最高,要求模型接受General-Bench全集考验,旨在选拔全能型的多模态基础模型[22][23] - Scope-B 模态统一英雄榜:包括7个并行子榜单,4个针对单一模态(如纯视觉、纯语音),3个针对模态组合(如图像+文本),模型只需在所选模态范围内评测[24][25][26] - Scope-C 理解/生成英雄榜:将评测细分为理解类和生成类两大范式,在图像、视频、音频、文本等模态下分别设榜,共计8个榜单,强调同一模态内跨任务范式的迁移能力,对资源要求较低[27][28] - Scope-D 技能专长榜:粒度最细,将任务按具体技能聚类(如“视觉问答榜”、“图像字幕生成榜”),参赛模型可只针对某一类技能提交结果,鼓励模型从单点技能极致化开始发展[30][31][33] 排行榜现状与社区反馈 - 模型收录:排行榜已收录100多个多模态模型的成绩,整体表现差异悬殊,颠覆了部分对常见模型能力排位的认知[56][57] - 段位分布: - Level-2:占比最多,包括GPT-4V等闭源模型以及SEED-LLaMA、Unified-IO等开源模型,这些模型支持任务范围广但极少超越单项SOTA,单模态平均得分大致在10-20分左右[61][62] 当前前三名为Unified-io-2-XXL、AnyGPT及NExT-GPT-V1.5[63] - Level-3:模型数量较少,包括Sa2VA-26B、LLaVA-One-Vision-72B、Qwen2-VL-72B系列等2024年后的新模型,它们通常具有数百亿参数,通过海量多任务训练在部分任务上超越了传统SOTA[65][66] 而GPT-4o、Claude-3.5等闭源模型在此级别表现不够靠前[67] - Level-4:目前仅有极个别模型达到,如Mini-Gemini、Vitron-V1、Emu2-37B等原型开源模型,它们在跨范式推理上有所突破,但平均分非常低,揭示了构建全面协同AI的巨大挑战[69][70][71] - Level-5:至今空缺,尚无模型能达到全模态总协同,团队推测下一个里程碑可能来自“多模态版”的GPT-5[72][73][74] - 社区反响:该评测平台因规模空前(覆盖700+任务)、体系完整公开透明而受到社区热烈欢迎,其数据被用于指导研究方向,讨论模型优劣(如开源模型Qwen2.5-VL-72B击败部分闭源巨头),并积累科研洞见[75][76][77]

GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式 - Reportify