Workflow
DeepSeek开源的新模型,有点邪门
创业邦·2025-10-25 18:14

技术突破与核心优势 - 推出新型模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,颠覆了过去大模型仅依赖文字token处理信息的传统方式[9] - 新模型实现了极高的信息压缩效率,仅用原本十分之一的token数量就能存储几乎相同的文字信息,在测试中仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型[11] - 模型支持多种分辨率和压缩模式以适应不同复杂度文档,从仅需64个视觉token的Tiny模式到支持动态调整的Gundam模式,实现了应记就记、分清轻重缓急的记忆策略[14] 性能表现与效率提升 - 在文档理解任务中,DeepSeek-OCR用仅1/10的token数量就能达到原模型96.5%的准确率,即使压缩20倍,模型准确率仍能保持六成左右[26][27] - 采用图像记忆方式后,大模型运行更省资源,有效解决了长上下文对话中计算量呈平方级增长的问题,将对话长度增加一倍带来的计算量从增加四倍优化到更可控的水平[24] 应用扩展与数据价值 - 新模型能够识别并转换多种复杂格式信息,可将论文中的柱状图自动识别为Excel格式保存,将有机化合物的分子结构图片转化为标准的SMILES格式存储[15][17] - 该技术解决了大模型训练数据短缺的行业难题,能够从二维信息中采集过去无法获取的数据,如论文中的图表和插图信息,在一张A100上一天可采集20万页以上的训练数据[18][22][24] 技术特点与创新理念 - 模型通过不同清晰度存储图像的方式模拟了人类遗忘信息的渐进过程,最近的聊天记录可用高清晰度格式存储,而早年不重要的记录则可压缩保存,这一理念可能增强大模型的上下文能力[28][30][31] - 该研究是开源社区集体成果的整合,训练数据使用了华为的Wukong数据集,生成样本文字借助了百度的PaddleOCR,图像特征提取核心组件采用Meta开源的SAM,视觉语义理解整合了OpenAI的CLIP模型[32]