视频OCR

搜索文档
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 15:10
多模态大模型在视频OCR领域的挑战与进展 - 多模态大模型(MLLM)在静态图像OCR任务中表现卓越 但在动态视频OCR任务中面临严峻挑战 主要受限于运动模糊、光影变化、视角切换等动态因素以及复杂的时序关联[1][2] - MME-VideoOCR评测框架旨在系统评估MLLM在视频OCR中的感知、理解和推理能力 构建了包含1,464个精选视频片段和2,000条人工标注问答对的高质量数据集[3][4] - 视频OCR任务难度远超静态图像 需解决文字信息形式复杂多样、时空视觉-文本关联建立以及语义解析与推理判断等核心问题[5] 评测体系设计与数据构建 - 设计10大任务类别和25个子任务 重点考察时序理解、信息整合及复杂推理等高阶能力 超越基础识别维度[6][15] - 数据集覆盖生活记录、影视娱乐、教育科普等多元化场景 融入运动模糊、低分辨率、复杂背景等真实世界复杂因素 并特别设计需要跨帧理解的时序性任务[10] - 额外引入短视频、弹幕视频及AIGC视频等新兴类型 增强数据全面性 共收集1,464个视频和2,000条样本[11][12] 主流模型性能表现 - 评测18个主流MLLM(含闭源与开源模型) 顶尖闭源模型Gemini-2.5 Pro整体准确率仅73.7% 显示当前技术存在明显瓶颈[7][19] - 开源模型表现显著落后 多数准确率不足60% 与闭源模型差距明显 其中Qwen2.5-VL(72B)以69%准确率位列开源第一[19][20] - 模型规模与性能正相关 InternVL3从8B到78B版本准确率提升7.4个百分点 显示参数扩大对能力提升的有效性[19] 核心能力短板与优化方向 - 时序处理成为关键瓶颈 模型在单帧识别表现较好 但对长时序信息整合和文字动态变化理解能力显著下降[21] - 时空推理能力普遍薄弱 且存在过度依赖语言先验知识而忽视视觉信息的问题[21][22] - 实验表明高分辨率视觉输入和完整时序帧覆盖对性能提升至关重要 但需平衡信息量与目标关注度的矛盾[23]