行业投资评级 - 投资评级为看好,并维持此评级 [8] 报告核心观点 - 持续看好国产AI产业链,重点推荐“铲子股”和卡位优势显著的巨头本身 [2][7] - DeepSeek-OCR模型的开源是AI大模型技术路径演进的重要一步,其创新架构有望打破算力约束,重新定义大模型上下文处理方式 [2][7] 事件描述与模型核心价值 - 10月20日DeepSeek开源DeepSeek-OCR模型,参数为3B,是专为实现高效视觉-文本压缩而设计的视觉语言模型,并首次提出“上下文光学压缩” [5] - 模型核心价值在于验证了视觉token可以更高效地表达信息,为长上下文压缩和解决大模型记忆遗忘问题提供了降本新思路 [10] - 当文本token数量在视觉token的10倍以内时,模型解码精度可达97%;即使在压缩率达到20倍的情况下,OCR准确率仍保持在约60% [10] 技术架构突破 - 提出新的视觉编码结构DeepEncoder,实现高分辨率下高效提取视觉特征并显著减少视觉token数量 [7] - 架构核心将1024×1024输入从传统约4096个视觉token压缩到约256个token [7] - 文本解码器采用MoE结构,实际推理仅使用约570M参数,效率高于全量3B模型 [7] 性能与应用价值 - 在OmniDocBench基准测试中,以100个视觉token超过GOT-OCR2.0的表现,以不到800个视觉token优于MinerU2.0 [10] - 在实际生产环境中,每日可在单张A100-40G GPU生成超过20万页LLM/VLM训练数据 [10] - 模型具备深度解析能力,可将金融报告图表转为结构化数据,化学结构式转成SMILES格式,并支持近100种语言的PDF文档识别 [10] - 多轮对话中可通过光学压缩折叠旧内容,理论上实现无限上下文的架构 [10]
AI产业跟踪:DeepSeek开源DeepSeek-OCR,持续关注AI大模型技术路径演进与商业化进展
长江证券·2025-10-22 22:59