Workflow
Optical Compression
icon
搜索文档
DeepSeek开源新模型!单张A100日处理可超20万页数据
第一财经· 2025-10-20 21:23
模型发布与核心创新 - 公司于10月20日在Github开源了名为DeepSeek-OCR的新模型,并发布了相关论文[1] - 模型核心创新在于利用视觉模态作为文本信息的高效压缩介质,实现“光学压缩”[4] - 该方法可将文本压缩成图像,实现近10倍无损上下文压缩,同时OCR准确率保持在97%以上[4] 技术架构与性能表现 - 模型由DeepEncoder编码器和DeepSeek3B-MoE解码器两个核心组件组成[5] - 解码器采用混合专家设计,总参数3B,激活参数约5.7亿,兼具表达能力和推理效率[5] - 当文本token数量在视觉token的10倍以内时,解码精度达97%,压缩率20倍时准确率约60%[5] 应用潜力与行业影响 - 单张A100-40G显卡可支持每日20万页以上的大语言模型/视觉语言模型训练数据生成[4] - 该方法在长上下文压缩和大模型记忆遗忘机制等研究方向具有相当潜力[4][5] - 团队提出用光学压缩模拟人类遗忘机制,通过缩小渲染图像大小实现“文本遗忘”效果[5] 市场反响与研究背景 - 模型发布后在GitHub获得超过1400颗星星,显示较高关注度[7] - 项目由三位研究员共同完成,其中一作Haoran Wei曾有OCR系统开发经验[7] - 有观点认为该研究代表了统一语言和视觉的新方向,可能通向超级智能[7]
DeepSeek又发新模型,小而美玩出新高度
虎嗅· 2025-10-20 20:41
技术核心与创新 - 提出“光学压缩”概念,通过将文本转换为图像实现信息“瘦身”,用100个视觉Token即可表达原本需要1000个文本Token的内容[5][6] - DeepSeek-OCR由DeepEncoder(图像特征提取与压缩)和DeepSeek-3B-MoE(文本重建)两个核心组件组成[9][16] - DeepEncoder架构巧妙串联SAM-base(8000万参数)和CLIP-large(3亿参数),并加入16×卷积压缩器,在保证高分辨率输入处理能力的同时控制激活内存开销[10][11][13] 性能表现与效率 - 压缩率能达到10倍,OCR准确率保持在97%以上,即使压缩率拉到20倍,准确率也还有60%左右[4][6] - 在OmniDocBench基准测试中,仅用100个视觉Token即超过GOT-OCR2.0(每页256个Token)的表现,用不到800个视觉Token超越MinerU2.0(平均每页超过6000个Token)[15] - 生产效率极高,一块A100-40G显卡每天可生成超过20万页训练数据,20个节点(160块A100)可达每天3300万页[7] 模型设计与数据 - 解码器采用DeepSeek-3B-MoE架构,64个专家中激活6个再加2个共享专家,实际激活参数约5.7亿,兼具30亿参数模型表达能力与5亿参数模型推理效率[18][19] - 收集3000万页多语言PDF数据,涵盖约100种语言,其中中英文占2500万页,并包含300万条Word文档数据及中英文各1000万条场景OCR样本[21][24][25] - 通过“模型飞轮”机制为少数语言生成60万条高质量样本,采用粗标注与精标注相结合的数据处理策略[22][23] 应用潜力与拓展 - 具备“深度解析”能力,可对图表、化学结构式、几何图形、自然图像等进行结构化提取,在STEM领域应用潜力巨大[27][28] - 提出模拟人类遗忘机制的研究方向,通过将历史对话内容渲染成图像并逐步压缩,实现近期信息高保真、久远记忆自然淡化的效果,理论上可支撑“无限上下文”[29][30][32] - 探索以视觉模态作为LLM文本信息处理的高效压缩媒介,初步展现7-20倍的Token压缩能力,为VLM和LLM进化开辟新赛道[34][36]