Contextual Optical Compression
搜索文档
DeepSeek又发新模型,小而美玩出新高度
虎嗅· 2025-10-20 20:41
技术核心与创新 - 提出“光学压缩”概念,通过将文本转换为图像实现信息“瘦身”,用100个视觉Token即可表达原本需要1000个文本Token的内容[5][6] - DeepSeek-OCR由DeepEncoder(图像特征提取与压缩)和DeepSeek-3B-MoE(文本重建)两个核心组件组成[9][16] - DeepEncoder架构巧妙串联SAM-base(8000万参数)和CLIP-large(3亿参数),并加入16×卷积压缩器,在保证高分辨率输入处理能力的同时控制激活内存开销[10][11][13] 性能表现与效率 - 压缩率能达到10倍,OCR准确率保持在97%以上,即使压缩率拉到20倍,准确率也还有60%左右[4][6] - 在OmniDocBench基准测试中,仅用100个视觉Token即超过GOT-OCR2.0(每页256个Token)的表现,用不到800个视觉Token超越MinerU2.0(平均每页超过6000个Token)[15] - 生产效率极高,一块A100-40G显卡每天可生成超过20万页训练数据,20个节点(160块A100)可达每天3300万页[7] 模型设计与数据 - 解码器采用DeepSeek-3B-MoE架构,64个专家中激活6个再加2个共享专家,实际激活参数约5.7亿,兼具30亿参数模型表达能力与5亿参数模型推理效率[18][19] - 收集3000万页多语言PDF数据,涵盖约100种语言,其中中英文占2500万页,并包含300万条Word文档数据及中英文各1000万条场景OCR样本[21][24][25] - 通过“模型飞轮”机制为少数语言生成60万条高质量样本,采用粗标注与精标注相结合的数据处理策略[22][23] 应用潜力与拓展 - 具备“深度解析”能力,可对图表、化学结构式、几何图形、自然图像等进行结构化提取,在STEM领域应用潜力巨大[27][28] - 提出模拟人类遗忘机制的研究方向,通过将历史对话内容渲染成图像并逐步压缩,实现近期信息高保真、久远记忆自然淡化的效果,理论上可支撑“无限上下文”[29][30][32] - 探索以视觉模态作为LLM文本信息处理的高效压缩媒介,初步展现7-20倍的Token压缩能力,为VLM和LLM进化开辟新赛道[34][36]