DeepSeek开源OCR 2新模式,机器视觉编码逻辑更像“人类”
模型发布与技术突破 - DeepSeek团队发布并开源了DeepSeek-OCR 2模型,并发表了相关论文《DeepSeek-OCR 2: Visual Causal Flow》[1] - 模型采用创新的DeepEncoder V2架构,实现了视觉编码从固定扫描向语义推理的范式转变[1] - 该技术使AI能够根据图像含义动态重排图像各部分,更接近人类的视觉编码逻辑[1] 性能与效率优势 - 模型在维持极高数据压缩效率的同时,在多项基准测试和生产指标上取得显著突破[1][2] - 仅需256到1120个视觉Token即可覆盖复杂的文档页面,在同类模型中处于极低水平[1][2] - 极低的视觉Token数量显著降低了下游大型语言模型的计算开销[1][2] 评测表现 - 在OmniDocBench v1.5评测中,其综合得分达到91.09%[1][2] - 综合得分较前代模型提升了3.73%[1][2] - 特别是在阅读顺序识别方面表现出了更强的逻辑性[1][2]