Workflow
Visual Causal Flow
icon
搜索文档
DeepSeek发布新模型
财联社· 2026-01-27 14:20
公司技术发布 - DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文,并开源了DeepSeek-OCR 2模型 [1] - 该模型采用创新的DeepEncoder V2方法,使AI能够根据图像的含义动态重排图像的各个部分 [1] - 此项技术旨在让AI的视觉编码逻辑更接近人类的视觉处理方式 [1]
刚刚,DeepSeek又探索新架构了,开源OCR 2
机器之心· 2026-01-27 14:00
核心观点 - DeepSeek发布了其OCR模型的重大升级版DeepSeek-OCR 2,该模型通过引入全新的DeepEncoder V2架构,实现了视觉编码从“固定扫描”向“语义推理”的范式转变[3] - 模型的核心创新在于用轻量级语言模型替换了基于CLIP的编码器,并引入了“因果流查询”机制,使模型能根据图像语义动态重排视觉Token,从而更精准地还原复杂文档的自然阅读逻辑[5] - 在维持极高数据压缩效率的同时,模型在多项基准测试和生产指标上均取得显著突破,综合性能超越前代及多个主流竞品,并显著降低了实际应用中的错误率[5][6][27][30] 技术架构与创新 - **架构概述**:模型延续了编码器-解码器架构,关键升级在于将编码器从DeepEncoder升级为DeepEncoder V2,引入了因果推理能力[8][11] - **核心组件**:DeepEncoder V2由视觉分词器和类LLM架构的编码器组成,后者引入了**双流注意力机制**,其中视觉Token采用双向注意力,新引入的**因果流查询**采用因果注意力[12][13] - **工作机制**:该架构构建了**两阶段级联的因果推理机制**,编码器先对视觉Token进行语义重排,LLM解码器再在有序序列上执行自回归推理,这有助于在二维图像结构与一维语言建模间搭建桥梁[13] - **解码器**:模型解码器部分沿用前代的DeepSeek-MoE Decoder,是一个参数规模为**30亿**的MoE结构,其中约**5亿**参数在推理时激活[18] 性能表现 - **基准测试**:在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分达到**91.09%**,较前代(87.36%)提升了**3.73%**[27] - **关键指标提升**:在阅读顺序识别指标上,编辑距离从**0.085**显著降至**0.057**,证明了新编码器能更有效地排列视觉Token[27] - **压缩效率**:模型仅需**256到1120个**视觉Token即可覆盖复杂文档页面,在同类模型中处于极低水平,显著降低了下游LLM的计算开销[5] - **对比优势**:在相同的**1120个**视觉Token预算下,其文档解析任务的编辑距离(**0.100**)低于Gemini-3 Pro(**0.115**),证明了其在高效压缩下的性能优势[28] 训练与数据 - **训练数据**:沿用前代数据源,由OCR 1.0、OCR 2.0及通用视觉数据组成,其中OCR数据占混合训练数据的**80%**[20] - **训练流程**:主要分为三个阶段:1)编码器预训练;2)查询增强;3)解码器专门化[20] - **训练规模**:编码器预训练阶段在**160台A100 GPU**上以**640**的批大小训练了**40k**次迭代,约包含**1亿个**图文对样本[21] - **数据优化**:针对OCR 1.0数据采用了更均衡的采样策略,并按内容类型以**3:1:1**的比例划分页面,同时优化了布局检测的标签[26] 实际应用与生产影响 - **应用场景**:主要面向为DeepSeek-LLM提供图像读取的在线OCR服务,以及用于批量PDF处理的预训练数据流水线[30] - **生产指标改善**:在实际生产环境中,模型显著降低了OCR识别结果的重复率[6] - 在线用户日志图像中,重复率从**6.25%** 降至**4.17%**,降低了**2.08%**[30] - 在PDF数据生产场景中,重复率从**3.69%** 降至**2.88%**,降低了**0.81%**[30] - **行业意义**:该技术为未来构建统一的**全模态编码器**提供了可行路径,有望用同一方法处理图像、声音、视频等所有模态数据[6] 模型规格与可用性 - **模型参数**:模型总参数量为**3B**(30亿),Tensor类型为BF16[4] - **开源情况**:与公司以往发布一样,本次是模型和技术报告**齐开源**[3] - **获取方式**:项目、论文及模型地址均已公开在GitHub和Hugging Face平台[9]