DeepSeek-OCR 2重磅发布：AI学会“人类视觉逻辑”，以因果流解读图片

文章核心观点 - DeepSeek发布了新一代光学字符识别系统DeepSeek-OCR 2，该系统通过模拟人类视觉的“因果流”逻辑处理图像，在多项关键性能指标上实现显著提升，并有效控制了计算成本，有望重塑依赖复杂视觉理解的应用场景 [1][5][9] 技术突破与核心创新 - 系统采用名为DeepEncoder V2的新方法，使AI能够基于图像含义动态重新排列图像片段，模仿人类追随场景逻辑流的方式，而非传统的从左到右刚性扫描 [1][5] - 核心创新在于引入了可学习的“因果流查询”，构建了一个两级级联的1D因果推理结构：先由编码器在语义上重组视觉Token，再由解码器对有序序列进行自回归推理 [5] - 在架构上弃用了CLIP组件，转向采用紧凑的LLM式架构（Qwen2-0.5B），并引入“因果流Token”以实现并行处理 [6] - 新架构设计使视觉Token部分保留双向注意力以捕捉全局特征，而因果流Token部分采用因果注意力机制以获得重排序能力 [7] 性能表现与基准测试 - 在OmniDocBench v1.5基准测试中，DeepSeek-OCR 2取得了91.09%的综合成绩，相较于前代DeepSeek-OCR提升了3.73% [1][10] - 在阅读顺序的编辑距离指标上，DeepSeek-OCR 2从0.085显著降低至0.057，验证了其在逻辑重排序方面的有效性 [10] - 根据公布的性能对比表格，DeepSeek-OCR 2在总体得分上超越了包括Gemini-2.5 Pro、Qwen3-VL-235B在内的多个竞品模型 [11] 计算效率与成本控制 - 模型视觉Token数量被限制在256至1120之间，这一上限与Google的Gemini-3 Pro保持一致，显著低于部分竞品高达6000以上的Token消耗 [2][8] - 采用了多裁剪策略，根据图像分辨率不同，最终输入LLM的重排序视觉Token总数在256到1120之间，在保证高性能的同时大幅降低了计算开销 [8] 生产环境实用价值 - 在处理在线用户日志图像时，DeepSeek-OCR 2将重复率从6.25%降低至4.17%，下降了2.08个百分点 [2][10] - 在处理PDF预训练数据时，重复率从3.69%降至2.88%，下降了0.81个百分点 [2][10] - 重复率的下降表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用成熟度 [2][10] 行业影响与未来展望 - 这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景 [1] - DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力，为迈向统一的全模态编码器提供了一条有希望的路径 [12] - 未来，单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩 [12] - “两个级联的1D因果推理器”模式，通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务，或许代表了实现真正2D推理的一种突破性架构方法 [12]