全新OCR将图片变代码无损重绘！华中科大&小红书发布3B模型，图形重建超越Gemini 3 Pro

文章核心观点 - 华中科技大学与小红书hi lab联合推出的MOCR模型，通过将文档中的图形元素（如表格、图表、公式、流程图等）解析为可编辑的结构化代码（如SVG），重新定义了文档解析的范式，其目标从“识别文字”升级为“解析一切”[2][4] - 该模型仅3B参数，但在文档解析任务上达到开源模型第一，仅次于Gemini 3 Pro，并在图形重建的六个基准上全面超越了Gemini 3 Pro，证明了专注的架构与数据工程能弥补参数规模的差距[1][24][29] - MOCR的贡献超越了性能数字，它打破了文档仅等于文字的默认假设，开辟了多模态预训练的新数据源，其范式可扩展至多种专业领域，并为复杂结构化输出的评估提供了新思路[34][36][38][39] 模型概述与核心创新 - MOCR提出“解析一切”的新范式，将文档中的图形从“二等公民”升级为“一等解析目标”，输出可编辑、可渲染的结构化代码，旨在将页面所有信息变为机器可理解的结构化表示[4] - 传统OCR方案将图形裁切为像素图丢弃或仅用于粗粒度应用，而MOCR将图形解析为SVG代码，形成图像-代码配对数据，可用于文生图、可控生成等更广泛的下游任务[6][9] - 核心洞察在于文档中最有价值的监督信号往往是视觉的而非文字的，MOCR旨在回收这些被丢弃的“金矿”，重新定义整个文档数据引擎[9] 技术挑战与解决方案 - 面临三大核心难题：图形-代码配对监督信号稀缺、可渲染的程序表示（如SVG）天然不唯一导致训练目标多对一、任务要求极高的视觉定位精度和超长序列生成能力[10] - 采用从零训练的1.2B参数视觉编码器，支持约1100万像素原生高分辨率输入，以适配文档中精细文字和几何图元的感知需求[12] - 使用1.5B Qwen2.5 base模型作为语言解码器，因其更适合生成包含SVG代码的强结构化序列，此规模是处理异构输出与成本间的权衡[13][14] - 通过三阶段渐进式预训练稳定多任务学习：先建立视觉-语言接口，再进行广泛预训练混合文本OCR，最后专项强化图形转SVG能力并提升输入分辨率[15][16] - 构建四大互补数据源：PDF文档自动标注、网页渲染、原生SVG资产、通用视觉数据，通过精细清洗、去重、采样和基于渲染的验证解决数据稀缺与质量问题[18][19][20] 性能评估结果 - 在文档解析方面，dots.mocr在OCR Arena的Elo评估中，于olmOCR-Bench、OmniDocBench 1.5和XDocParse三个基准上均获开源模型第一，平均Elo达1125，仅次于Gemini 3 Pro的1211[24] - 在olmOCR-Bench上取得83.9的最高总分，刷新SOTA，在ArXiv论文解析、扫描数学文档、表格识别等子类别上均获最优成绩[25] - 在OmniDocBench v1.5上，文本转录和阅读顺序的编辑距离最低，分别为0.031和0.029[26] - 在图形解析方面，dots.mocr-svg在UniSVG基准上取得0.902分，大幅领先Gemini 3 Pro的0.735和OCRVerse的0.763，并在全部六个下游基准（ChartMimic、Design2Code、SciGen、ChemDraw等）上全面超越Gemini 3 Pro[29] - 在通用视觉能力上，dots.mocr在CharXiv图表理解、文档VQA、图表QA、视觉定位及计数等任务上表现稳健，未因专项能力而削弱通用水平[33] 行业影响与范式意义 - 重新定义“文档里有什么”，指出文档中的图形是信息密度最高的部分之一，系统性丢弃会损失核心价值[35] - 开辟多模态预训练新数据源，每张解析为SVG的图表都形成（图像，代码，文本）三元组，这种数据精确、可执行、可验证且可扰动，其规模上限近乎无穷[36] - MOCR范式是表示无关的，可扩展至TikZ、D3.js、CAD格式、SMILES、电路描述语言等多种专业领域表示，并可通过纳入完整网页大幅拓展训练数据池[38] - 引入OCR Arena评估框架，用强VLM作裁判进行两两对比，配合消除位置偏好的双轮协议和Elo评分，为复杂结构化输出提供了更可靠的评估新思路[21][39] - 证明了数据工程的核心价值，其标准化加基于渲染验证的组合策略，为处理“一图多码”问题提供了通用方法论[40]