Workflow
Visual Recognition
icon
搜索文档
DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片
华尔街见闻· 2026-01-27 17:56
DeepSeek发布新一代光学字符识别系统,通过让AI以类似人类的逻辑顺序理解图像,在视觉识别领域实现技术突破。这一进展可能重塑文档处理、图表分析 等依赖复杂视觉理解的应用场景。 27日,DeepSeek发布了DeepSeek-OCR 2系统。该系统采用名为DeepEncoder V2的新方法,使AI能够像人类一样按照逻辑顺序"看"图像。这项技术的核心创 新在于改变了传统AI处理图像的方式。 DeepEncoder V2让AI基于图像含义动态重新排列图像片段,而非传统的从左到右刚性扫描。 这种方法模仿了人类追 随场景逻辑流的方式。 根据DeepSeek公布的技术报告,DeepSeek-OCR 2在多项关键指标上展现出显著优势。在OmniDocBench v1.5基准测试中,该模型取得了91.09%的成绩, 相较于前代DeepSeek-OCR提升了3.73%。 值得注意的是,该模型在保持极高精度的同时,严格控制了计算成本, 其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持 一致。 在实际生产环境中,该模型在处理在线用户日志和PDF预训练数据时的重复率分别下降 ...