模型发布与性能突破 - 字节跳动开源全新轻量级文档解析模型Dolphin,体积小、速度快且性能突破,解析效率提升近2倍 [1][2] - 在文档解析任务上,Dolphin准确率超越GPT-4.1、Claude3.5-Sonnet、Gemini2.5-pro等通用多模态大模型及垂类OCR模型Mistral-OCR [2] - 论文被ACL 2025收录,项目已开源 [3] 技术架构创新 - 采用"先解析结构后解析内容"两阶段范式,避免传统多OCR模型级联的错误累积,同时解决通用大模型丢失版面结构信息的问题 [6] - 元素解耦解析策略简化数据收集,孤立元素图像(如表格、公式)标注比完整文档更易获取 [6] - 第一阶段布局解析生成文档元素序列(标题、图表等),第二阶段并行内容识别完成整页提取 [9] 性能对比与优势 - 模型仅322M参数,但性能优于集成方法和更大视觉语言模型(VLMs) [13] - 纯文本文档解析:英文/中文编辑距离0.0114/0.0131,优于GOT(0.035/0.038)和GPT-4.1(0.0489/0.2549) [14] - 混合元素文档解析:编辑距离0.1283,优于所有基线;效率达0.1729 FPS,比Mathpix(0.0944 FPS)快2倍 [15][16] 元素级解析能力 - 文本段落解析:Fox-Block/Dolphin-Block测试集编辑距离0.0029/0.0121,显著领先 [17][18] - 公式识别:CDM分数0.9850(SPE)、0.9685(SCE)、0.8739(CPE),媲美专业方法 [17][18] - 表格解析:PubTabNet/PubTab1M基准TEDS分数0.9515/0.9625,有效捕捉结构关系 [17][19] 实际应用展示 - 多栏学术论文、复杂公式、中英表格均能精准识别,输出包含元素边界、阅读顺序及Markdown渲染结果 [21][23] - 提供在线Demo、GitHub仓库及Hugging Face模型,支持复杂布局文本、双语段落和表格解析 [26]
字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!
量子位·2025-05-22 22:29