Workflow
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板
机器之心·2025-05-24 12:07

多模态大模型在文档理解领域的现状 - 当前多模态大模型(MLLMs)在文档理解基准测试(如DocVQA、ChartQA)中表现优异,但现有基准存在两大核心缺陷:脱离真实场景和无法评估鲁棒性[1] - 真实场景中文档多为手机/相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲、拍摄视角多变等复杂干扰[5] - 现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑[5] WildDoc数据集的构建与特点 - WildDoc是首个真实世界场景文档理解的基准数据集,由字节跳动OCR团队联合华中科技大学打造[3] - 数据集包含超过12,000张手动拍摄的图片,覆盖环境、光照、视角、扭曲和拍摄效果等五个影响因素[3] - 数据采集过程包括场景多样化、基准对齐和多条件拍摄,确保覆盖多维度干扰因素[11] - 对图像中的文本、布局等关键信息进行人工验证,并通过一致性分数评估模型在不同条件下的稳定性[11] 实验结果与发现 - 主流MLLMs在WildDoc上性能显著下降,例如GPT-4o平均准确率下降35.3,ChartQA子集下降达56.4[12] - 开源模型Qwen2.5-VL-72B平均准确率70.6,为开源最佳,但仍低于原始基准约15%[12] - 闭源模型Doubao-1.5-pro表现最优(平均准确率73.7%),但一致性分数仅55.0[12] - 物理扭曲最具挑战性,导致模型性能下降最显著(如GPT-4o下降34.1-34.7)[13] - 非正面视角与图像质量对性能影响较大,但屏幕捕获图像因数据增强算法成熟,性能下降较小[13] - 大参数量模型在WildDoc上表现略优,但未完全克服真实场景挑战[13] 未来改进方向 - 数据增强:通过更多增强技术模拟真实世界条件,如变化的光照、阴影等[19] - 鲁棒特征学习:让模型学会提取对真实世界变化不敏感的特征[19] - 真实数据引入:收集更多真实世界文档图像,丰富训练数据集[19]