Workflow
图像记忆
icon
搜索文档
今日暴论:Deepseek-OCR干翻了所有架构
自动驾驶之心· 2025-10-27 08:03
技术突破 - DeepSeek发布新模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,而非传统的文字token [3][6][7] - 该技术可将大量文字信息转化为一张图片进行存储,实现极高的信息压缩比,仅需原本十分之一的token即可存储几乎相同的文字信息 [1][12][40] - 在文档理解任务测试中,DeepSeek-OCR仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型 [13][14] 性能优势 - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,例如仅需64个视觉token表示简单PPT,最多400个视觉token处理文字密集内容,并支持动态调整的Gundam模式 [18][19][20] - 使用图像记忆后,模型能将token数量压缩至原本的十分之一,同时性能损失极小,在压缩10倍时准确率可达原模型的96.5%,即使压缩20倍准确率仍能保持约60% [40][41] - 该技术能显著降低模型计算量,因为对话长度增加一倍会导致计算量增加四倍,而视觉token的运用能有效控制成本 [36][37][38] 数据处理能力 - DeepSeek-OCR不仅能识别文字,还能自动提取并转换复杂信息,例如将论文中的柱状图识别为Excel格式,将有机化合物分子结构图片转化为SMILES格式 [22][24] - 模型会同时记忆图片本身及其位置信息,以及图片附近的文字内容,从而捕获过去被忽略的二维信息 [26][27][32] - 该模型具备高效的数据采集能力,在一张A100显卡上一天可处理20万页以上的训练数据,有望将现有数据重新识别一遍以补充高质量训练数据集 [28][29][35] 技术生态与影响 - DeepSeek-OCR是一个开源项目,其训练数据整合了华为的Wukong数据集,生成样本时借助了百度的PaddleOCR,图像特征提取使用了Meta的SAM,视觉语义理解整合了OpenAI的CLIP模型 [51][53] - 该技术引入了一种类似人类遗忘机制的信息存储方式,近期重要信息以高清晰度存储,而早期不重要信息可压缩存储,这可能增强模型的上下文处理能力 [43][45][47] - 这项突破有望解决行业面临的高质量训练数据短缺问题,因为许多过去未被采集的二维信息(如论文图表)现在可以被有效利用 [32][33][35]
DeepSeek开源的新模型,有点邪门
创业邦· 2025-10-25 18:14
技术突破与核心优势 - 推出新型模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,颠覆了过去大模型仅依赖文字token处理信息的传统方式[9] - 新模型实现了极高的信息压缩效率,仅用原本十分之一的token数量就能存储几乎相同的文字信息,在测试中仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型[11] - 模型支持多种分辨率和压缩模式以适应不同复杂度文档,从仅需64个视觉token的Tiny模式到支持动态调整的Gundam模式,实现了应记就记、分清轻重缓急的记忆策略[14] 性能表现与效率提升 - 在文档理解任务中,DeepSeek-OCR用仅1/10的token数量就能达到原模型96.5%的准确率,即使压缩20倍,模型准确率仍能保持六成左右[26][27] - 采用图像记忆方式后,大模型运行更省资源,有效解决了长上下文对话中计算量呈平方级增长的问题,将对话长度增加一倍带来的计算量从增加四倍优化到更可控的水平[24] 应用扩展与数据价值 - 新模型能够识别并转换多种复杂格式信息,可将论文中的柱状图自动识别为Excel格式保存,将有机化合物的分子结构图片转化为标准的SMILES格式存储[15][17] - 该技术解决了大模型训练数据短缺的行业难题,能够从二维信息中采集过去无法获取的数据,如论文中的图表和插图信息,在一张A100上一天可采集20万页以上的训练数据[18][22][24] 技术特点与创新理念 - 模型通过不同清晰度存储图像的方式模拟了人类遗忘信息的渐进过程,最近的聊天记录可用高清晰度格式存储,而早年不重要的记录则可压缩保存,这一理念可能增强大模型的上下文能力[28][30][31] - 该研究是开源社区集体成果的整合,训练数据使用了华为的Wukong数据集,生成样本文字借助了百度的PaddleOCR,图像特征提取核心组件采用Meta开源的SAM,视觉语义理解整合了OpenAI的CLIP模型[32]