刚刚，DeepSeek又探索新架构了，开源OCR 2

核心观点 - DeepSeek发布了其OCR模型的重大升级版DeepSeek-OCR 2，该模型通过引入全新的DeepEncoder V2架构，实现了视觉编码从“固定扫描”向“语义推理”的范式转变[3] - 模型的核心创新在于用轻量级语言模型替换了基于CLIP的编码器，并引入了“因果流查询”机制，使模型能根据图像语义动态重排视觉Token，从而更精准地还原复杂文档的自然阅读逻辑[5] - 在维持极高数据压缩效率的同时，模型在多项基准测试和生产指标上均取得显著突破，综合性能超越前代及多个主流竞品，并显著降低了实际应用中的错误率[5][6][27][30] 技术架构与创新 - 架构概述：模型延续了编码器-解码器架构，关键升级在于将编码器从DeepEncoder升级为DeepEncoder V2，引入了因果推理能力[8][11] - 核心组件：DeepEncoder V2由视觉分词器和类LLM架构的编码器组成，后者引入了双流注意力机制，其中视觉Token采用双向注意力，新引入的因果流查询采用因果注意力[12][13] - 工作机制：该架构构建了两阶段级联的因果推理机制，编码器先对视觉Token进行语义重排，LLM解码器再在有序序列上执行自回归推理，这有助于在二维图像结构与一维语言建模间搭建桥梁[13] - 解码器：模型解码器部分沿用前代的DeepSeek-MoE Decoder，是一个参数规模为30亿的MoE结构，其中约5亿参数在推理时激活[18] 性能表现 - 基准测试：在OmniDocBench v1.5评测中，DeepSeek-OCR 2综合得分达到91.09%，较前代（87.36%）提升了3.73%[27] - 关键指标提升：在阅读顺序识别指标上，编辑距离从0.085显著降至0.057，证明了新编码器能更有效地排列视觉Token[27] - 压缩效率：模型仅需256到1120个视觉Token即可覆盖复杂文档页面，在同类模型中处于极低水平，显著降低了下游LLM的计算开销[5] - 对比优势：在相同的1120个视觉Token预算下，其文档解析任务的编辑距离（0.100）低于Gemini-3 Pro（0.115），证明了其在高效压缩下的性能优势[28] 训练与数据 - 训练数据：沿用前代数据源，由OCR 1.0、OCR 2.0及通用视觉数据组成，其中OCR数据占混合训练数据的80%[20] - 训练流程：主要分为三个阶段：1）编码器预训练；2）查询增强；3）解码器专门化[20] - 训练规模：编码器预训练阶段在160台A100 GPU上以640的批大小训练了40k次迭代，约包含1亿个图文对样本[21] - 数据优化：针对OCR 1.0数据采用了更均衡的采样策略，并按内容类型以3:1:1的比例划分页面，同时优化了布局检测的标签[26] 实际应用与生产影响 - 应用场景：主要面向为DeepSeek-LLM提供图像读取的在线OCR服务，以及用于批量PDF处理的预训练数据流水线[30] - 生产指标改善：在实际生产环境中，模型显著降低了OCR识别结果的重复率[6] - 在线用户日志图像中，重复率从6.25% 降至4.17%，降低了2.08%[30] - 在PDF数据生产场景中，重复率从3.69% 降至2.88%，降低了0.81%[30] - 行业意义：该技术为未来构建统一的全模态编码器提供了可行路径，有望用同一方法处理图像、声音、视频等所有模态数据[6] 模型规格与可用性 - 模型参数：模型总参数量为3B（30亿），Tensor类型为BF16[4] - 开源情况：与公司以往发布一样，本次是模型和技术报告齐开源[3] - 获取方式：项目、论文及模型地址均已公开在GitHub和Hugging Face平台[9]