Visual Causal Flow - 财报，业绩电话会，研报，新闻

Visual Causal Flow

搜索文档

财联社· 2026-01-27 14:20

公司技术发布 - DeepSeek团队发布《DeepSeek-OCR 2: Visual Causal Flow》论文，并开源了DeepSeek-OCR 2模型 [1] - 该模型采用创新的DeepEncoder V2方法，使AI能够根据图像的含义动态重排图像的各个部分 [1] - 此项技术旨在让AI的视觉编码逻辑更接近人类的视觉处理方式 [1]

Visual Causal Flow

DeepEncoder V2

Artificial Intelligence

DeepSeek-OCR 2

Visual Causal Flow

DeepEncoder V2

Artificial Intelligence

DeepSeek-OCR 2

刚刚，DeepSeek又探索新架构了，开源OCR 2

机器之心· 2026-01-27 14:00

核心观点 - DeepSeek发布了其OCR模型的重大升级版DeepSeek-OCR 2，该模型通过引入全新的DeepEncoder V2架构，实现了视觉编码从“固定扫描”向“语义推理”的范式转变[3] - 模型的核心创新在于用轻量级语言模型替换了基于CLIP的编码器，并引入了“因果流查询”机制，使模型能根据图像语义动态重排视觉Token，从而更精准地还原复杂文档的自然阅读逻辑[5] - 在维持极高数据压缩效率的同时，模型在多项基准测试和生产指标上均取得显著突破，综合性能超越前代及多个主流竞品，并显著降低了实际应用中的错误率[5][6][27][30] 技术架构与创新 - **架构概述**：模型延续了编码器-解码器架构，关键升级在于将编码器从DeepEncoder升级为DeepEncoder V2，引入了因果推理能力[8][11] - **核心组件**：DeepEncoder V2由视觉分词器和类LLM架构的编码器组成，后者引入了**双流注意力机制**，其中视觉Token采用双向注意力，新引入的**因果流查询**采用因果注意力[12][13] - **工作机制**：该架构构建了**两阶段级联的因果推理机制**，编码器先对视觉Token进行语义重排，LLM解码器再在有序序列上执行自回归推理，这有助于在二维图像结构与一维语言建模间搭建桥梁[13] - **解码器**：模型解码器部分沿用前代的DeepSeek-MoE Decoder，是一个参数规模为**30亿**的MoE结构，其中约**5亿**参数在推理时激活[18] 性能表现 - **基准测试**：在OmniDocBench v1.5评测中，DeepSeek-OCR 2综合得分达到**91.09%**，较前代（87.36%）提升了**3.73%**[27] - **关键指标提升**：在阅读顺序识别指标上，编辑距离从**0.085**显著降至**0.057**，证明了新编码器能更有效地排列视觉Token[27] - **压缩效率**：模型仅需**256到1120个**视觉Token即可覆盖复杂文档页面，在同类模型中处于极低水平，显著降低了下游LLM的计算开销[5] - **对比优势**：在相同的**1120个**视觉Token预算下，其文档解析任务的编辑距离（**0.100**）低于Gemini-3 Pro（**0.115**），证明了其在高效压缩下的性能优势[28] 训练与数据 - **训练数据**：沿用前代数据源，由OCR 1.0、OCR 2.0及通用视觉数据组成，其中OCR数据占混合训练数据的**80%**[20] - **训练流程**：主要分为三个阶段：1）编码器预训练；2）查询增强；3）解码器专门化[20] - **训练规模**：编码器预训练阶段在**160台A100 GPU**上以**640**的批大小训练了**40k**次迭代，约包含**1亿个**图文对样本[21] - **数据优化**：针对OCR 1.0数据采用了更均衡的采样策略，并按内容类型以**3:1:1**的比例划分页面，同时优化了布局检测的标签[26] 实际应用与生产影响 - **应用场景**：主要面向为DeepSeek-LLM提供图像读取的在线OCR服务，以及用于批量PDF处理的预训练数据流水线[30] - **生产指标改善**：在实际生产环境中，模型显著降低了OCR识别结果的重复率[6] - 在线用户日志图像中，重复率从**6.25%** 降至**4.17%**，降低了**2.08%**[30] - 在PDF数据生产场景中，重复率从**3.69%** 降至**2.88%**，降低了**0.81%**[30] - **行业意义**：该技术为未来构建统一的**全模态编码器**提供了可行路径，有望用同一方法处理图像、声音、视频等所有模态数据[6] 模型规格与可用性 - **模型参数**：模型总参数量为**3B**（30亿），Tensor类型为BF16[4] - **开源情况**：与公司以往发布一样，本次是模型和技术报告**齐开源**[3] - **获取方式**：项目、论文及模型地址均已公开在GitHub和Hugging Face平台[9]

Artificial Intelligence

Visual Causal Flow

Artificial Intelligence

DeepSeek-OCR 2

Artificial Intelligence

Visual Causal Flow

Artificial Intelligence

DeepSeek-OCR 2