Workflow
多模态长文本理解
icon
搜索文档
多模态长文本理解测评首发:46款模型无一攻克128K难关
量子位· 2025-05-23 14:14
多模态长文本理解评估基准MMLongBench - 香港科技大学、腾讯西雅图AI Lab等机构联合推出首个综合性多模态长文本评估基准MMLongBench,覆盖5大类型任务的16个数据集,包含13,331个长文本样本[1][2] - 基准涵盖Visual RAG、大海捞针、many-shot in-context learning、长文档摘要和长文档VQA五大任务,兼顾自然图像与合成图像[2][8] - 采用跨模态长度控制技术,统一以image patch和text token计算输入长度,标准化8K/16K/32K/64K/128K五种上下文长度[3][11] 模型性能评估结果 - 测试46个领先多模态大模型(含GPT-4o、Gemini-2.5-Pro等闭源模型和Qwen2.5-VL-72B等开源模型),所有模型在长上下文任务中表现均未超过80分[5][6][14] - 128K长度下顶尖开源模型InternVL3-38B、Qwen2.5-VL-72B平均分仅49.8和48.7,闭源模型GPT-4o平均分62.9[14] - 推理能力增强的模型(如Gemini-2.0-Flash-T)在summarization任务上表现提升25.3%,DocVQA任务提升10.1%[15] 关键发现与技术瓶颈 - 不同任务间Spearman相关系数低于0.85,证明单一任务评估无法全面反映模型长文本理解能力[17] - OCR能力成为处理长文档的主要瓶颈:Qwen2.5-VL系列更擅长处理图像PDF,Gemma3-27B在≤32K长度时偏好OCR纯文本[19][20] - 跨模态检索能力不足:将Visual RAG任务图像替换为实体名称后,Gemma3-27B在128K长度下表现提升26.4[22] 数据集与技术细节 - 基于16个公开多模态数据集重构,通过拼接/截断控制上下文长度(如Visual RAG任务拼接Wikipedia段落)[9] - 采用Llama2分词器计算文本token,图片划分为14×14 patch并应用2×2 pixel unshuffle压缩视觉token[11] - 评测代码与数据集已开源,包含评测框架、数据处理工具和标准化评估协议[4][22]