多模态通用智能 - 财报，业绩电话会，研报，新闻

多模态通用智能

搜索文档

速递 | DeepSeek更新了：OCR 2重构底层逻辑：AI看图终于懂“人话”了

未可知人工智能研究院· 2026-01-28 12:04

核心观点 - DeepSeek OCR 2模型通过引入“视觉因果流”重构了AI看图的底层逻辑，使其能够像人类一样进行有逻辑的“语义推理式”阅读，而不仅仅是机械扫描[1][4] - 该技术在性能与效率上实现双重突破，为财务自动化、合同审核、档案管理等高价值商业场景带来降本增效的显著机会，并可能引发行业洗牌[8][9][12] - 此次更新是DeepSeek长期战略的一部分，其核心是通过优化“信息压缩”来降低推理成本，并最终目标是构建全模态统一编码器[21][22][23] 技术创新与性能 - **核心创新：视觉因果流**：模型能够根据图像的语义含义动态调整阅读顺序，例如在处理财务报表时，能将相关联的数据和备注按逻辑关系组织，而非传统OCR的固定顺序扫描[4][6] - **技术架构：DeepEncoder V2**：引入轻量级语言模型结构，使AI能动态重新排列视觉块，打破了传统CLIP固定视觉编码的桎梏[6] - **性能突破**：在相同训练数据下，比上一代模型性能提升接近4个百分点，在处理复杂文档（如多栏排版、带公式论文、图表报告）时准确率稳定在91%以上[8] - **效率飞跃**：处理一份几百页的合同，所需视觉token从过去的可能上千个压缩到一百多个，成本降低80%以上[9][10] 商业应用场景 - **财务自动化**：能自动识别发票、收据、银行对账单并理解上下文，判断支出与发票的匹配关系，为财务SaaS公司大幅降本，成本可降至原第三方API的十分之一[13] - **合同智能审核**：不仅能提取合同关键条款，还能理解条款间的逻辑关系（如判断条款冲突），未来可能取代初级法务助理的部分工作，为法律科技公司创造窗口期[14] - **智能档案管理**：在“数字政府”政策推动下，市场未来三年预计爆发，该技术能自动分类文档（如身份证、病历）并提取关键字段建立索引，满足海量历史档案数字化、上云的需求[15] 行业竞争与格局 - **主要玩家**：国内市场包括合合信息（扫描全能王母公司）、商汤、旷视、汉王科技；国际市场由AWS Textract和Google Vision API主导云端OCR服务[17] - **开源影响**：OCR 2的开源将大幅降低技术门槛和成本，打乱现有竞争格局，对依靠API赚差价的中间商和缺乏核心技术的OCR服务商造成冲击，加速行业洗牌[17][20] - **受益方**：垂直行业SaaS创业者、传统软件厂商（如ERP、OA系统集成）、以及面向多语言市场的出海团队将从中获益[19] 公司战略与长期展望 - **战略核心：压缩战**：DeepSeek通过R1推理模型、Janus多模态模型及OCR 2，持续优化“信息压缩”与“高效推理”，旨在降低大模型推理成本，以工程优化打性价比战[21][22] - **终极目标**：构建统一的全模态编码器，将文本、图片、音频、视频等所有模态映射到同一语义空间，以实现效率的指数级提升和真正的多模态通用智能[23][24] - **技术落地观**：尽管存在对模型依赖语言先验的学术性质疑，但其在当前实际有结构的文档应用场景中已能解决80%的问题，商业落地价值显著[26][27]

多模态通用智能

信息压缩

高效推理

Artificial Intelligence

Artificial Intelligence

DeepSeek OCR 2

DeepEncoder V2

商汤「日日新」，再次摘冠！

市值风云· 2025-09-10 18:11

多模态大模型技术突破 - 商汤日日新V6.5以82.2综合成绩登顶OpenCompass多模态学术榜单超越Gemini 2.5 Pro的80.1分和GPT-5的79.9分 [1][2] - 模型在国内率先突破图文交错思维链技术实现逻辑思维与形象思维结合成为国内首个具备多模态思考能力的商业级大模型 [3] - 通过轻量化视觉编码器和加深MLLM主干网络架构更新在同等性能下实现3倍以上效率提升效费比优于国际同类模型 [4] 技术实现路径 - 采用思维链为载体与强化学习新范式在生成-验证-学习闭环中持续改进思维显著提升数理/代码/GUI操作/图表分析等维度推理性能 [3][4] - 以多模态通用智能为技术战略核心强调多模态信息感知与处理是AGI的必要条件通过视觉/听觉等多感官信息融合实现深度理解与推理 [2] 行业地位与战略布局 - 商汤构建基础设施-模型-应用三位一体战略致力于打造业界领先通用多模态大模型推动AI从数字空间向物理世界端到端价值落地 [4] - OpenCompass评测体系覆盖语言/多模/安全/具身智能等多元领域采用CircularEval和LLM-as-a-Judge等策略被业界视为应用价值重要参考标准 [5]