Workflow
今日暴论:Deepseek-OCR干翻了所有架构
自动驾驶之心·2025-10-27 08:03

技术突破 - DeepSeek发布新模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,而非传统的文字token [3][6][7] - 该技术可将大量文字信息转化为一张图片进行存储,实现极高的信息压缩比,仅需原本十分之一的token即可存储几乎相同的文字信息 [1][12][40] - 在文档理解任务测试中,DeepSeek-OCR仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型 [13][14] 性能优势 - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,例如仅需64个视觉token表示简单PPT,最多400个视觉token处理文字密集内容,并支持动态调整的Gundam模式 [18][19][20] - 使用图像记忆后,模型能将token数量压缩至原本的十分之一,同时性能损失极小,在压缩10倍时准确率可达原模型的96.5%,即使压缩20倍准确率仍能保持约60% [40][41] - 该技术能显著降低模型计算量,因为对话长度增加一倍会导致计算量增加四倍,而视觉token的运用能有效控制成本 [36][37][38] 数据处理能力 - DeepSeek-OCR不仅能识别文字,还能自动提取并转换复杂信息,例如将论文中的柱状图识别为Excel格式,将有机化合物分子结构图片转化为SMILES格式 [22][24] - 模型会同时记忆图片本身及其位置信息,以及图片附近的文字内容,从而捕获过去被忽略的二维信息 [26][27][32] - 该模型具备高效的数据采集能力,在一张A100显卡上一天可处理20万页以上的训练数据,有望将现有数据重新识别一遍以补充高质量训练数据集 [28][29][35] 技术生态与影响 - DeepSeek-OCR是一个开源项目,其训练数据整合了华为的Wukong数据集,生成样本时借助了百度的PaddleOCR,图像特征提取使用了Meta的SAM,视觉语义理解整合了OpenAI的CLIP模型 [51][53] - 该技术引入了一种类似人类遗忘机制的信息存储方式,近期重要信息以高清晰度存储,而早期不重要信息可压缩存储,这可能增强模型的上下文处理能力 [43][45][47] - 这项突破有望解决行业面临的高质量训练数据短缺问题,因为许多过去未被采集的二维信息(如论文图表)现在可以被有效利用 [32][33][35]