DeepSeek发布DeepSeek-OCR 2 让AI学会“人类视觉逻辑”
Seek .Seek .(US:SKLTY) 智通财经·2026-01-27 15:53

模型发布与技术突破 - DeepSeek于1月27日发布了全新的DeepSeek-OCR2模型,该模型采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分,而非机械地从左到右扫描,模拟了人类观看场景的逻辑流程 [1] - 新模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解 [1] - 传统的视觉语言模型通常采用从左上到右下的光栅扫描顺序处理图像,难以捕捉复杂排版内容间的真实逻辑关系 [1] 性能表现与基准测试 - 根据技术报告,DeepSeek-OCR2在OmniDocBench v1.5基准测试中取得了91.09%的成绩,相较于前代DeepSeek-OCR模型提升了3.73% [1] - 该模型在保持高精度的同时严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3Pro保持一致 [2] - 在实际生产环境中,模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度 [2] 架构创新与行业意义 - DeepSeek-OCR2的发布不仅是一次OCR性能升级,更具有深远的架构探索意义,其DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力 [2] - 这种架构天然继承了大型语言模型社区在基础设施优化方面的成果,如混合专家架构和高效注意力机制 [2] - 新架构用LLM风格的架构替代了DeepEncoder中的CLIP组件,通过定制注意力掩码,视觉Token使用双向注意力,而可学习的查询则采用因果注意力,使每个查询Token都能关注所有视觉Token及之前的查询,实现对视觉信息的渐进式因果重排 [5]