技术突破与核心优势 - 发布新模型DeepSeek-OCR,其核心创新在于使用图像作为信息的“记忆载体”,而非传统的文字token [5][9] - 该技术实现了极高的信息压缩比,仅用原本十分之一的token即可存储几乎相同的文字信息,在测试中能以100个视觉token超越需要256个token的GOT-OCR 2.0,用不到800个视觉token超越平均需6000+ token的MinerU 2.0 [1][14] - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,包括Tiny(64 token)、Small(100 token)、Base(256 token)、Large(400 token)以及可动态调整的Gundam模式 [17] 数据处理与应用能力 - DeepSeek-OCR不仅能识别和存储文字,还能处理二维信息,例如将论文中的柱状图自动识别为Excel格式,将有机化合物的分子结构图片转化为SMILES格式存储 [18][20] - 该技术能捕获图片位置及其附近文字等过去被忽略的二维信息,为模型训练提供了新的高质量数据来源,在一张A100显卡上一天可采集超过20万页训练数据 [23][24][26][29] - 通过将大量文字转化为图片进行存储,模型能够用更少的计算资源取得更好的表达效果,解决了长上下文对话中计算量随对话长度平方级增长的成本问题 [29][31] 性能表现与效率提升 - 在性能测试中,DeepSeek-OCR使用十分之一的token数量即可达到原模型96.5%的准确率,即使压缩20倍,准确率仍能保持在60%左右 [31] - 模型引入了类似人类记忆的渐进式存储概念,可根据信息重要性动态调整存储清晰度,从高清晰的“Gundam模式”到低清晰的“Tiny模式”,实现资源的优化配置 [33][35][36] - 这种创新的存储方式有望增强大模型的上下文处理能力,通过“主动遗忘”机制区分信息优先级,但该设想尚未有明确结论 [37] 行业影响与开源生态 - 该技术突破解决了行业面临的高质量训练数据匮乏问题,使得过去未被充分利用的二维信息(如论文图表)得以成为新的数据来源 [24][26] - DeepSeek-OCR是一个开源项目,其成果融合了全球开源社区的贡献,包括华为的Wukong数据集、百度的PaddleOCR、Meta的SAM以及OpenAI的CLIP模型 [38] - 该模型的开源特性预计将推动相关技术成为行业研究热点,催生更多创新应用 [38]
DeepSeek昨天开源的新模型,有点邪门