Workflow
长上下文压缩
icon
搜索文档
突破新领域 深度求索发布文字识别模型DeepSeek-OCR
新京报· 2025-10-21 11:11
DeepSeek还上传了与该模型相关的论文,在论文中,DeepSeek-OCR被描述为是"一项关于通过光学二维 映射来压缩长上下文可行性的初步研究。"实验表明,当文本标记数量在视觉标记数量的10倍以内时 (即压缩比 < 10倍),该模型可以达到97%的解码(OCR)精度。即使在20倍的压缩比下,OCR 准确 率仍能保持在约60%的水平。这对于长上下文压缩、大语言模型中的记忆遗忘机制等研究领域展现了相 当大的潜力。 (文章来源:新京报) 新京报贝壳财经讯(记者罗亦丹)北京时间10月20日,DeepSeek(深度求索)在开源社区Hugging Face 上发布了新模型DeepSeek-OCR。据了解,OCR(Optical Character Recognition,文字识别)模型是一种 用来从图像中提取文本的技术。 ...
突破新领域,深度求索发布文字识别模型DeepSeek-OCR
贝壳财经· 2025-10-20 20:37
DeepSeek还上传了与该模型相关的论文,在论文中,DeepSeek-OCR被描述为是"一项关于通过光学二维 映射来压缩长上下文可行性的初步研究。"实验表明,当文本标记数量在视觉标记数量的10倍以内时 (即压缩比 < 10倍),该模型可以达到97%的解码(OCR)精度。即使在20倍的压缩比下,OCR 准确 率仍能保持在约60%的水平。这对于长上下文压缩、大语言模型中的记忆遗忘机制等研究领域展现了相 当大的潜力。 编辑 岳彩周 新京报贝壳财经讯(记者罗亦丹)北京时间10月20日,DeepSeek(深度求索)在开源社区Hugging Face 上发布了新模型DeepSeek-OCR。据了解,OCR(Optical Character Recognition,文字识别)模型是一种 用来从图像中提取文本的技术。 校对 柳宝庆 ...
太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切
机器之心· 2025-10-20 17:15
模型发布与核心创新 - DeepSeek开源了名为DeepSeek-OCR的新模型,参数量为3B,上线不久下载量已超过100次[1] - 该模型是光学字符识别模型,旨在通过文本到图像的方法实现近10倍无损上下文压缩[1][3] - 核心创新在于利用视觉模态作为文本信息的高效压缩媒介,通过视觉Token进行光学压缩可实现高压缩率[9] 技术架构与设计 - 模型主要由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成[3][11] - DeepEncoder参数量约为380M,由80M的SAM-base和300M的CLIP-large串联而成,能保持高分辨率输入下的低激活状态[14][15] - 解码器采用3B MoE架构,推理时激活64个路由专家中的6个及2个共享专家,激活参数量约为570M[18] - 编码器将1024×1024图像分割为4096个patch Token,经压缩模块后变为256个Token,实现内存可控[17] 性能表现与压缩效率 - 当压缩率<10×时,模型解码精度可达97%;压缩率达到20×情况下,OCR准确率仍保持在约60%[3][28] - 在OmniDocBench基准测试中,仅使用100个视觉Token就超过了GOT-OCR2.0的表现[5] - 使用不到800个视觉Token时性能优于MinerU2.0,而后者需要近7000个视觉Token[5][32] - 实际生产中,单张A100-40G GPU每天可生成超过20万页LLM/VLM训练数据[5] 应用能力与多模态支持 - 模型支持近100种语言的识别,具备多语言OCR能力[42] - 在深度解析模式下能处理图表、几何图形、化学公式等多种复杂内容[34][40] - 保留通用视觉理解能力,包括图像描述、物体检测等功能[46][48] - 针对不同类型文档需求差异:幻灯片类仅需64个视觉Token,书籍报告类需100个视觉Token即可满足需求[33] 训练方法与数据 - 训练流程分为两个阶段:独立训练DeepEncoder和训练完整DeepSeek-OCR模型[21][23] - 使用20个节点进行训练,纯文本数据训练速度为每天900亿Token,多模态数据为每天700亿Token[25] - 构建了复杂多样的训练数据,包括OCR 1.0数据、OCR 2.0数据以及通用视觉数据[20][23]