DeepSeek OCR 2
搜索文档
速递 | DeepSeek更新了:OCR 2重构底层逻辑:AI看图终于懂“人话”了
未可知人工智能研究院· 2026-01-28 12:04
核心观点 - DeepSeek OCR 2模型通过引入“视觉因果流”重构了AI看图的底层逻辑,使其能够像人类一样进行有逻辑的“语义推理式”阅读,而不仅仅是机械扫描[1][4] - 该技术在性能与效率上实现双重突破,为财务自动化、合同审核、档案管理等高价值商业场景带来降本增效的显著机会,并可能引发行业洗牌[8][9][12] - 此次更新是DeepSeek长期战略的一部分,其核心是通过优化“信息压缩”来降低推理成本,并最终目标是构建全模态统一编码器[21][22][23] 技术创新与性能 - **核心创新:视觉因果流**:模型能够根据图像的语义含义动态调整阅读顺序,例如在处理财务报表时,能将相关联的数据和备注按逻辑关系组织,而非传统OCR的固定顺序扫描[4][6] - **技术架构:DeepEncoder V2**:引入轻量级语言模型结构,使AI能动态重新排列视觉块,打破了传统CLIP固定视觉编码的桎梏[6] - **性能突破**:在相同训练数据下,比上一代模型性能提升接近4个百分点,在处理复杂文档(如多栏排版、带公式论文、图表报告)时准确率稳定在91%以上[8] - **效率飞跃**:处理一份几百页的合同,所需视觉token从过去的可能上千个压缩到一百多个,成本降低80%以上[9][10] 商业应用场景 - **财务自动化**:能自动识别发票、收据、银行对账单并理解上下文,判断支出与发票的匹配关系,为财务SaaS公司大幅降本,成本可降至原第三方API的十分之一[13] - **合同智能审核**:不仅能提取合同关键条款,还能理解条款间的逻辑关系(如判断条款冲突),未来可能取代初级法务助理的部分工作,为法律科技公司创造窗口期[14] - **智能档案管理**:在“数字政府”政策推动下,市场未来三年预计爆发,该技术能自动分类文档(如身份证、病历)并提取关键字段建立索引,满足海量历史档案数字化、上云的需求[15] 行业竞争与格局 - **主要玩家**:国内市场包括合合信息(扫描全能王母公司)、商汤、旷视、汉王科技;国际市场由AWS Textract和Google Vision API主导云端OCR服务[17] - **开源影响**:OCR 2的开源将大幅降低技术门槛和成本,打乱现有竞争格局,对依靠API赚差价的中间商和缺乏核心技术的OCR服务商造成冲击,加速行业洗牌[17][20] - **受益方**:垂直行业SaaS创业者、传统软件厂商(如ERP、OA系统集成)、以及面向多语言市场的出海团队将从中获益[19] 公司战略与长期展望 - **战略核心:压缩战**:DeepSeek通过R1推理模型、Janus多模态模型及OCR 2,持续优化“信息压缩”与“高效推理”,旨在降低大模型推理成本,以工程优化打性价比战[21][22] - **终极目标**:构建统一的全模态编码器,将文本、图片、音频、视频等所有模态映射到同一语义空间,以实现效率的指数级提升和真正的多模态通用智能[23][24] - **技术落地观**:尽管存在对模型依赖语言先验的学术性质疑,但其在当前实际有结构的文档应用场景中已能解决80%的问题,商业落地价值显著[26][27]
【太平洋科技-每日观点&资讯】(2026-01-28)
远峰电子· 2026-01-27 21:06
大盘与板块表现 - 主要股指涨跌互现,科创50指数领涨,涨幅为1.51%,创业板指上涨0.71%,上证指数上涨0.18%,深证成指微涨0.09%,北证50微跌0.05% [1] - TMT板块内部分化显著,领涨板块为SW分立器件、SW模拟芯片设计和SW集成电路封测,涨幅分别为5.70%、3.60%和3.59% [1] - TMT领跌板块为SW安防设备、SW其他计算机设备和SW教育出版,跌幅分别为1.11%、1.07%和1.03% [1] 国内半导体与显示产业动态 - 澜起科技在国内率先推出基于PCIe 6.x/CXL 3.x标准的高性能有源电缆(AEC)解决方案,采用自研Retimer芯片,旨在满足数据中心多机架架构对高带宽、低延迟互连的需求 [1] - 具备边缘推理能力的数字终端将成为中国半导体产业扩张的重要驱动力,尤其是在成熟工艺领域,预计2026年中国半导体市场规模将增长31.26%至5465亿美元 [1] - 国科微宣布对旗下固态存储芯片、SSD主控芯片及配套存储模组等全系列产品进行价格调整,涨幅区间为20%至80%,其中企业级SSD及高端DDR适配产品涨幅最高达80% [1] - 合肥国显8.6代AMOLED生产线项目整体进度已完成65%,预计今年二季度开始洁净室交付并搬入工艺设备,设计产能为每月3.2万片玻璃基板(尺寸2290mm × 2620mm) [1] 海外半导体与AI芯片进展 - 美光在新加坡动工建设先进晶圆制造设施,计划10年内投资约240亿美元(约1669亿人民币),最终提供70万平方英尺无尘室空间,晶圆产出计划于2028年下半年开始,以应对AI和数据中心驱动的NAND需求增长 [2] - Counterpoint Research预计,到2027年,全球服务器专用AI服务器计算ASIC出货量将比2024年增长三倍,增长动力来自谷歌TPU、AWS Trainium集群以及Meta和微软内部芯片产能的提升 [2] - 微软正式推出全新AI加速器Microsoft Azure Maia 200,其FP4算力最高可达10千万亿次浮点运算每秒,是亚马逊Trainium3的三倍,搭载216GB HBM3e,内存带宽达7TB/s,并配备272MB片上SRAM [2] - 美国专利商标局正式驳回了长江存储针对美光科技两项涉及3D NAND闪存关键制造工艺的核心专利提出的无效请求 [2] AI模型与应用创新 - DeepSeek发布OCR 2模型,采用创新的DeepEncoder V2方法,使AI能够根据图像含义动态重排图像部分,更接近人类视觉编码逻辑 [3] - Vidu推出全球首款支持“万物可参考”的视频生成模型Vidu Q2参考生Pro,支持特效、表情、纹理、动作、人物、场景六大参考类型,用户可通过视频或图片输入实现精细化编辑 [3] - 月之暗面Kimi发布并开源K2.5模型,在多项基准测试中达到开源SOTA水平,支持多模态输入,并创新性引入“Agent集群”能力,可自主创建多达100个分身并行处理任务,效率最高提升4.5倍 [3] - 阿里正式发布千问旗舰推理模型Qwen3-Max-Thinking,总参数量超1万亿,预训练数据量高达36T Tokens,在19项权威基准测试中性能可媲美GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶尖模型 [3] “十五五”前瞻产业追踪 - 【深空经济】国星宇航披露全球首个服务硅基智能体的太空算力网计划,计划构建由2400颗推理计算卫星与400颗训练计算卫星组成的全球算力基础设施,目标在2035年前完成组网,具备服务数以亿计硅基智能体的能力 [4] - 【高端仪器】国内自主研发的“石工卓灵-超声兰姆波扫描成像测井仪(CBUI)”已在多个主力油田实现规模化应用,具备环空介质识别、水泥胶结评价等五大功能,实现井筒完整性全景化、定量化诊断 [4] - 【工业母机】根据德国机床制造商协会2025年初步统计数据,中国机床出口额同比增长18%,以21.6%的全球市场份额首次成为出口冠军,德国则以16.7%的份额跌至第二,出口额同比大跌10% [4] - 【具身智能】浙江人形机器人公司完成4.5亿元Pre-A轮融资,其人形机器人已在华为、中控、吉利等头部企业应用于汽车精密装配、纺织布料分片等多个场景 [4] 公司业绩速递 - 概伦电子2025年实现营业收入约4.87亿元,同比增长16.21%,归母净利润预计为3600万元,实现扭亏为盈 [5] - 蓝特光学预计2025年实现归母净利润3.75亿至4.00亿元,同比增长70.04%至81.38%,扣非净利润达3.68亿至3.93亿元,同比增长70.89%至82.50% [5] - 南亚新材预计2025年实现归母净利润2.2亿元至2.6亿元,同比增长337.20%至416.69%,扣非净利润为2.0亿元至2.4亿元,同比增长613.21%至755.85% [5] - 仕佳光子预计2025年营业收入达21.29亿元,同比增长约98.13%,预计实现归母净利润3.42亿元,同比增长约425.95% [5] 高频数据与材料价格 - 2025年1月27日国际DRAM颗粒现货价格中,DDR5 16G (2G×8) 4800/5600均价为36.600美元,日跌幅0.18%;DDR4 16Gb (2G×8) 3200均价为78.750美元,日跌幅0.07%;DDR3 4Gb 512M×8 1600/1866均价为5.170美元,日涨幅0.43% [5] - 2025年1月27日百川盈孚半导体材料价格显示,锌系粉体、高纯金属及晶片衬底价格多数持平,部分高纯金属材料价格出现上涨,例如6N高纯钴市场均价为3050元/千克,日上涨200元;7N高纯铟市场均价为4350元/千克,日上涨200元 [6]