Workflow
DeepEncoder V2
icon
搜索文档
速递 | DeepSeek更新了:OCR 2重构底层逻辑:AI看图终于懂“人话”了
核心观点 - DeepSeek OCR 2模型通过引入“视觉因果流”重构了AI看图的底层逻辑,使其能够像人类一样进行有逻辑的“语义推理式”阅读,而不仅仅是机械扫描[1][4] - 该技术在性能与效率上实现双重突破,为财务自动化、合同审核、档案管理等高价值商业场景带来降本增效的显著机会,并可能引发行业洗牌[8][9][12] - 此次更新是DeepSeek长期战略的一部分,其核心是通过优化“信息压缩”来降低推理成本,并最终目标是构建全模态统一编码器[21][22][23] 技术创新与性能 - **核心创新:视觉因果流**:模型能够根据图像的语义含义动态调整阅读顺序,例如在处理财务报表时,能将相关联的数据和备注按逻辑关系组织,而非传统OCR的固定顺序扫描[4][6] - **技术架构:DeepEncoder V2**:引入轻量级语言模型结构,使AI能动态重新排列视觉块,打破了传统CLIP固定视觉编码的桎梏[6] - **性能突破**:在相同训练数据下,比上一代模型性能提升接近4个百分点,在处理复杂文档(如多栏排版、带公式论文、图表报告)时准确率稳定在91%以上[8] - **效率飞跃**:处理一份几百页的合同,所需视觉token从过去的可能上千个压缩到一百多个,成本降低80%以上[9][10] 商业应用场景 - **财务自动化**:能自动识别发票、收据、银行对账单并理解上下文,判断支出与发票的匹配关系,为财务SaaS公司大幅降本,成本可降至原第三方API的十分之一[13] - **合同智能审核**:不仅能提取合同关键条款,还能理解条款间的逻辑关系(如判断条款冲突),未来可能取代初级法务助理的部分工作,为法律科技公司创造窗口期[14] - **智能档案管理**:在“数字政府”政策推动下,市场未来三年预计爆发,该技术能自动分类文档(如身份证、病历)并提取关键字段建立索引,满足海量历史档案数字化、上云的需求[15] 行业竞争与格局 - **主要玩家**:国内市场包括合合信息(扫描全能王母公司)、商汤、旷视、汉王科技;国际市场由AWS Textract和Google Vision API主导云端OCR服务[17] - **开源影响**:OCR 2的开源将大幅降低技术门槛和成本,打乱现有竞争格局,对依靠API赚差价的中间商和缺乏核心技术的OCR服务商造成冲击,加速行业洗牌[17][20] - **受益方**:垂直行业SaaS创业者、传统软件厂商(如ERP、OA系统集成)、以及面向多语言市场的出海团队将从中获益[19] 公司战略与长期展望 - **战略核心:压缩战**:DeepSeek通过R1推理模型、Janus多模态模型及OCR 2,持续优化“信息压缩”与“高效推理”,旨在降低大模型推理成本,以工程优化打性价比战[21][22] - **终极目标**:构建统一的全模态编码器,将文本、图片、音频、视频等所有模态映射到同一语义空间,以实现效率的指数级提升和真正的多模态通用智能[23][24] - **技术落地观**:尽管存在对模型依赖语言先验的学术性质疑,但其在当前实际有结构的文档应用场景中已能解决80%的问题,商业落地价值显著[26][27]
DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片
华尔街见闻· 2026-01-27 17:56
文章核心观点 - DeepSeek发布了新一代光学字符识别系统DeepSeek-OCR 2,该系统通过模拟人类视觉的“因果流”逻辑处理图像,在多项关键性能指标上实现显著提升,并有效控制了计算成本,有望重塑依赖复杂视觉理解的应用场景 [1][5][9] 技术突破与核心创新 - 系统采用名为DeepEncoder V2的新方法,使AI能够基于图像含义动态重新排列图像片段,模仿人类追随场景逻辑流的方式,而非传统的从左到右刚性扫描 [1][5] - 核心创新在于引入了可学习的“因果流查询”,构建了一个两级级联的1D因果推理结构:先由编码器在语义上重组视觉Token,再由解码器对有序序列进行自回归推理 [5] - 在架构上弃用了CLIP组件,转向采用紧凑的LLM式架构(Qwen2-0.5B),并引入“因果流Token”以实现并行处理 [6] - 新架构设计使视觉Token部分保留双向注意力以捕捉全局特征,而因果流Token部分采用因果注意力机制以获得重排序能力 [7] 性能表现与基准测试 - 在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2取得了91.09%的综合成绩,相较于前代DeepSeek-OCR提升了3.73% [1][10] - 在阅读顺序的编辑距离指标上,DeepSeek-OCR 2从0.085显著降低至0.057,验证了其在逻辑重排序方面的有效性 [10] - 根据公布的性能对比表格,DeepSeek-OCR 2在总体得分上超越了包括Gemini-2.5 Pro、Qwen3-VL-235B在内的多个竞品模型 [11] 计算效率与成本控制 - 模型视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3 Pro保持一致,显著低于部分竞品高达6000以上的Token消耗 [2][8] - 采用了多裁剪策略,根据图像分辨率不同,最终输入LLM的重排序视觉Token总数在256到1120之间,在保证高性能的同时大幅降低了计算开销 [8] 生产环境实用价值 - 在处理在线用户日志图像时,DeepSeek-OCR 2将重复率从6.25%降低至4.17%,下降了2.08个百分点 [2][10] - 在处理PDF预训练数据时,重复率从3.69%降至2.88%,下降了0.81个百分点 [2][10] - 重复率的下降表明新模型在生成高质量、低冗余的文本数据方面具备极高的实用成熟度 [2][10] 行业影响与未来展望 - 这一进展可能重塑文档处理、图表分析等依赖复杂视觉理解的应用场景 [1] - DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力,为迈向统一的全模态编码器提供了一条有希望的路径 [12] - 未来,单一编码器可能通过配置特定模态的可学习查询,在同一参数空间内实现对图像、音频和文本的特征提取与压缩 [12] - “两个级联的1D因果推理器”模式,通过将2D理解分解为“阅读逻辑推理”和“视觉任务推理”两个互补子任务,或许代表了实现真正2D推理的一种突破性架构方法 [12]
DeepSeek发布DeepSeek-OCR 2 让AI学会“人类视觉逻辑”
智通财经· 2026-01-27 15:53
模型发布与技术突破 - DeepSeek于1月27日发布了全新的DeepSeek-OCR2模型,该模型采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像各部分,而非机械地从左到右扫描,模拟了人类观看场景的逻辑流程 [1] - 新模型在处理布局复杂的图片时,表现优于传统的视觉-语言模型,实现了更智能、更具因果推理能力的视觉理解 [1] - 传统的视觉语言模型通常采用从左上到右下的光栅扫描顺序处理图像,难以捕捉复杂排版内容间的真实逻辑关系 [1] 性能表现与基准测试 - 根据技术报告,DeepSeek-OCR2在OmniDocBench v1.5基准测试中取得了91.09%的成绩,相较于前代DeepSeek-OCR模型提升了3.73% [1] - 该模型在保持高精度的同时严格控制了计算成本,其视觉Token数量被限制在256至1120之间,这一上限与Google的Gemini-3Pro保持一致 [2] - 在实际生产环境中,模型在处理在线用户日志和PDF预训练数据时的重复率分别下降了2.08%和0.81%,显示出极高的实用成熟度 [2] 架构创新与行业意义 - DeepSeek-OCR2的发布不仅是一次OCR性能升级,更具有深远的架构探索意义,其DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力 [2] - 这种架构天然继承了大型语言模型社区在基础设施优化方面的成果,如混合专家架构和高效注意力机制 [2] - 新架构用LLM风格的架构替代了DeepEncoder中的CLIP组件,通过定制注意力掩码,视觉Token使用双向注意力,而可学习的查询则采用因果注意力,使每个查询Token都能关注所有视觉Token及之前的查询,实现对视觉信息的渐进式因果重排 [5]