视觉标记
搜索文档
DeepSeek-OCR:大模型技术,正站在一个新的十字路口
36氪· 2025-10-23 07:15
技术突破与核心观点 - DeepSeek开源了名为“DeepSeek-OCR”的模型,首次提出“上下文光学压缩”概念,将文字视为图像处理,通过视觉编码将整页内容压缩成少量“视觉标记” [1] - 该技术使文档处理效率提升十倍,准确率高达97%,模型可轻松应对超长文档而无需担忧计算资源 [1][2] - 技术探索意义在于重绘文档处理边界,挑战上下文限制,优化成本结构,革新企业流程 [7] 技术架构与性能 - 系统分为两个模块:强大的DeepEncoder负责捕捉页面信息,轻量级文本生成器将视觉标记转化为可读输出 [3] - 编码器融合SAM的局部分析能力和CLIP的全局理解,通过16倍压缩器将初始4096个标记精简到仅256个 [3] - 解码器采用混合专家架构,拥有约30亿参数(激活时约57亿),能快速生成文本、Markdown或结构化数据 [3] - 单台A100显卡每日可处理超过20万页文档,20台八卡服务器日处理量可达3300万页 [3] 效率优势与比较 - 处理千字文章时,传统方法需上千个标记,而DeepSeek仅需约100个视觉标记即以97%保真度还原 [2] - 相比GOT-OCR 2.0(需256个标记)和MinerU 2.0(每页6000+标记),DeepSeek标记量减少90% [3] - 处理3503×1668像素图像时,基础文本提取需24秒,结构化Markdown需39秒,带坐标框完整解析需58秒 [10] 应用前景与影响 - 技术将改变“标记经济”,长文档不再受上下文窗口限制,处理成本大幅降低 [6] - 提升信息提取能力,财务图表、技术图纸能直接转为结构化数据 [6] - 改善聊天机器人长对话记忆,通过“视觉衰减”将旧对话转为低分辨率图像存储,扩展上下文而不增加标记消耗 [6][11]