核心观点 - DeepSeek发布了其OCR模型的重大升级版DeepSeek-OCR 2,该模型通过引入全新的DeepEncoder V2架构,实现了视觉编码从“固定扫描”向“语义推理”的范式转变[3] - 模型的核心创新在于用轻量级语言模型替换了基于CLIP的编码器,并引入了“因果流查询”机制,使模型能根据图像语义动态重排视觉Token,从而更精准地还原复杂文档的自然阅读逻辑[5] - 在维持极高数据压缩效率的同时,模型在多项基准测试和生产指标上均取得显著突破,综合性能超越前代及多个主流竞品,并显著降低了实际应用中的错误率[5][6][27][30] 技术架构与创新 - 架构概述:模型延续了编码器-解码器架构,关键升级在于将编码器从DeepEncoder升级为DeepEncoder V2,引入了因果推理能力[8][11] - 核心组件:DeepEncoder V2由视觉分词器和类LLM架构的编码器组成,后者引入了双流注意力机制,其中视觉Token采用双向注意力,新引入的因果流查询采用因果注意力[12][13] - 工作机制:该架构构建了两阶段级联的因果推理机制,编码器先对视觉Token进行语义重排,LLM解码器再在有序序列上执行自回归推理,这有助于在二维图像结构与一维语言建模间搭建桥梁[13] - 解码器:模型解码器部分沿用前代的DeepSeek-MoE Decoder,是一个参数规模为30亿的MoE结构,其中约5亿参数在推理时激活[18] 性能表现 - 基准测试:在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分达到91.09%,较前代(87.36%)提升了3.73%[27] - 关键指标提升:在阅读顺序识别指标上,编辑距离从0.085显著降至0.057,证明了新编码器能更有效地排列视觉Token[27] - 压缩效率:模型仅需256到1120个视觉Token即可覆盖复杂文档页面,在同类模型中处于极低水平,显著降低了下游LLM的计算开销[5] - 对比优势:在相同的1120个视觉Token预算下,其文档解析任务的编辑距离(0.100)低于Gemini-3 Pro(0.115),证明了其在高效压缩下的性能优势[28] 训练与数据 - 训练数据:沿用前代数据源,由OCR 1.0、OCR 2.0及通用视觉数据组成,其中OCR数据占混合训练数据的80%[20] - 训练流程:主要分为三个阶段:1)编码器预训练;2)查询增强;3)解码器专门化[20] - 训练规模:编码器预训练阶段在160台A100 GPU上以640的批大小训练了40k次迭代,约包含1亿个图文对样本[21] - 数据优化:针对OCR 1.0数据采用了更均衡的采样策略,并按内容类型以3:1:1的比例划分页面,同时优化了布局检测的标签[26] 实际应用与生产影响 - 应用场景:主要面向为DeepSeek-LLM提供图像读取的在线OCR服务,以及用于批量PDF处理的预训练数据流水线[30] - 生产指标改善:在实际生产环境中,模型显著降低了OCR识别结果的重复率[6] - 在线用户日志图像中,重复率从6.25% 降至4.17%,降低了2.08%[30] - 在PDF数据生产场景中,重复率从3.69% 降至2.88%,降低了0.81%[30] - 行业意义:该技术为未来构建统一的全模态编码器提供了可行路径,有望用同一方法处理图像、声音、视频等所有模态数据[6] 模型规格与可用性 - 模型参数:模型总参数量为3B(30亿),Tensor类型为BF16[4] - 开源情况:与公司以往发布一样,本次是模型和技术报告齐开源[3] - 获取方式:项目、论文及模型地址均已公开在GitHub和Hugging Face平台[9]
刚刚,DeepSeek又探索新架构了,开源OCR 2
机器之心·2026-01-27 14:00