文档理解

搜索文档
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板
机器之心· 2025-05-24 12:07
本文的共同第一作者为字节跳动算法工程师王安澜和廖蕾,本文的通讯作者为字节跳动算法工程师唐景群。 在文档理解领域,多模态大模型(MLLMs)正以惊人的速度进化。从基础文档图像识别到复杂文档理解,它们在扫描或数字文档基准测试(如 DocVQA、 ChartQA)中表现出色,这似乎表明 MLLMs 已很好地解决了文档理解问题。然而, 现有的文档理解基准存在两大核心缺陷 : WildDoc 选取了 3 个常用的具有代表性的文档场景作为基准(Document/Chart/Table), 包含超过 12,000 张手动拍摄的图片,覆盖了环境、光照、视角、扭曲和拍 摄效果等五个影响真实世界文档理解效果的因素,且可与现有的电子基准数据集表现进行对比。 为了严格评估模型的鲁棒性,WildDoc 构建了一致性评估指标(Consistency Score)。实验发现主流 MLLMs 在 WildDoc 上性能显著下降,揭示了现有模型在真实 场景文档理解的性能瓶颈,并为技术改进提供可验证的方向。本工作不仅填补了真实场景基准的空白,更推动文档理解研究向「实用化、泛化性」迈出关键一 步。 论文链接:https://arxiv.org/a ...