文章核心观点 - 华中科技大学与小红书hi lab联合推出的MOCR模型,通过将文档中的图形元素(如表格、图表、公式、流程图等)解析为可编辑的结构化代码(如SVG),重新定义了文档解析的范式,其目标从“识别文字”升级为“解析一切”[2][4] - 该模型仅3B参数,但在文档解析任务上达到开源模型第一,仅次于Gemini 3 Pro,并在图形重建的六个基准上全面超越了Gemini 3 Pro,证明了专注的架构与数据工程能弥补参数规模的差距[1][24][29] - MOCR的贡献超越了性能数字,它打破了文档仅等于文字的默认假设,开辟了多模态预训练的新数据源,其范式可扩展至多种专业领域,并为复杂结构化输出的评估提供了新思路[34][36][38][39] 模型概述与核心创新 - MOCR提出“解析一切”的新范式,将文档中的图形从“二等公民”升级为“一等解析目标”,输出可编辑、可渲染的结构化代码,旨在将页面所有信息变为机器可理解的结构化表示[4] - 传统OCR方案将图形裁切为像素图丢弃或仅用于粗粒度应用,而MOCR将图形解析为SVG代码,形成图像-代码配对数据,可用于文生图、可控生成等更广泛的下游任务[6][9] - 核心洞察在于文档中最有价值的监督信号往往是视觉的而非文字的,MOCR旨在回收这些被丢弃的“金矿”,重新定义整个文档数据引擎[9] 技术挑战与解决方案 - 面临三大核心难题:图形-代码配对监督信号稀缺、可渲染的程序表示(如SVG)天然不唯一导致训练目标多对一、任务要求极高的视觉定位精度和超长序列生成能力[10] - 采用从零训练的1.2B参数视觉编码器,支持约1100万像素原生高分辨率输入,以适配文档中精细文字和几何图元的感知需求[12] - 使用1.5B Qwen2.5 base模型作为语言解码器,因其更适合生成包含SVG代码的强结构化序列,此规模是处理异构输出与成本间的权衡[13][14] - 通过三阶段渐进式预训练稳定多任务学习:先建立视觉-语言接口,再进行广泛预训练混合文本OCR,最后专项强化图形转SVG能力并提升输入分辨率[15][16] - 构建四大互补数据源:PDF文档自动标注、网页渲染、原生SVG资产、通用视觉数据,通过精细清洗、去重、采样和基于渲染的验证解决数据稀缺与质量问题[18][19][20] 性能评估结果 - 在文档解析方面,dots.mocr在OCR Arena的Elo评估中,于olmOCR-Bench、OmniDocBench 1.5和XDocParse三个基准上均获开源模型第一,平均Elo达1125,仅次于Gemini 3 Pro的1211[24] - 在olmOCR-Bench上取得83.9的最高总分,刷新SOTA,在ArXiv论文解析、扫描数学文档、表格识别等子类别上均获最优成绩[25] - 在OmniDocBench v1.5上,文本转录和阅读顺序的编辑距离最低,分别为0.031和0.029[26] - 在图形解析方面,dots.mocr-svg在UniSVG基准上取得0.902分,大幅领先Gemini 3 Pro的0.735和OCRVerse的0.763,并在全部六个下游基准(ChartMimic、Design2Code、SciGen、ChemDraw等)上全面超越Gemini 3 Pro[29] - 在通用视觉能力上,dots.mocr在CharXiv图表理解、文档VQA、图表QA、视觉定位及计数等任务上表现稳健,未因专项能力而削弱通用水平[33] 行业影响与范式意义 - 重新定义“文档里有什么”,指出文档中的图形是信息密度最高的部分之一,系统性丢弃会损失核心价值[35] - 开辟多模态预训练新数据源,每张解析为SVG的图表都形成(图像,代码,文本)三元组,这种数据精确、可执行、可验证且可扰动,其规模上限近乎无穷[36] - MOCR范式是表示无关的,可扩展至TikZ、D3.js、CAD格式、SMILES、电路描述语言等多种专业领域表示,并可通过纳入完整网页大幅拓展训练数据池[38] - 引入OCR Arena评估框架,用强VLM作裁判进行两两对比,配合消除位置偏好的双轮协议和Elo评分,为复杂结构化输出提供了更可靠的评估新思路[21][39] - 证明了数据工程的核心价值,其标准化加基于渲染验证的组合策略,为处理“一图多码”问题提供了通用方法论[40]
全新OCR将图片变代码无损重绘!华中科大&小红书发布3B模型,图形重建超越Gemini 3 Pro
量子位·2026-03-26 12:12