核心观点 - DeepSeek发布的新模型DeepSeek-OCR采用“上下文光学压缩”技术,通过将文本信息压缩到图像中,利用视觉token高效处理长文本,显著降低大模型计算开销 [1][13][14] - 该模型参数规模为3B,但在主流文档解析基准OmniDocBench上取得新SOTA,实现“以小博大”的效能突破 [1][15][16] - 模型开源后迅速获得业界高度关注,在GitHub斩获3.3K star,HuggingFace热榜第二,并被评价可能开源了谷歌Gemini的核心商业机密,或是通往AGI的新路径 [7][10][11] 技术原理与架构 - 核心思想是“将视觉作为文本压缩媒介”,利用一张图片能包含大量文字且占用token更少的特性,实现文本信息的高效压缩 [5][14] - 模型由两大核心组件构成:编码器DeepEncoder负责将图片转为高度压缩的视觉token,解码器DeepSeek3B-MoE-A570M负责从视觉token中重建文字 [13][19][20] - 编码器采用“先局部处理,再压缩,后全局理解”的串行设计,通过16倍卷积压缩器将1024x1024图片产生的4096个token大幅削减至256个,控制内存开销 [21][22] - 模型支持从Tiny(512x512, 64token)到Gundam(动态分块,近800token)等多种输入模式,可灵活调整压缩强度以适应不同任务需求 [23][24][25] 性能表现与效率 - 在压缩率小于10倍时,模型OCR解码准确率高达97%;即使压缩率达到20倍,准确率仍保持在60%左右 [6] - 仅用100个视觉token,性能就超过了每页使用256个token的GOT-OCR2.0模型;Base版本使用256个视觉token即在OmniDocBench上达到0.137的整体性能指标 [18][19] - 数据生成效率极高,仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据 [6] - 模型具备复杂图像解析能力,支持金融报表、化学分子式、数学几何图、100多种语言等 [25] 行业影响与潜在应用 - 该方法被评价为“AI的JPEG时刻”,为AI记忆架构打开了新路径,卡帕西等专家高度认可其“图像比文字更适合LLM输入”的理念 [8][9] - 研究团队提出用光学压缩模拟人类遗忘机制的脑洞想法,将近期记忆渲染为高分辨率图像,远期记忆渐进式压缩,为模型处理超长上下文提供新思路 [34][35][36][37] - 该技术路径被视为统一视觉与语言的方法,可能是通往AGI的大门之一 [11] - 模型延续了论文一作Haoran Wei在阶跃星辰时期主导的GOT-OCR2.0技术路径,团队核心成员Yaofeng Sun和Yukun Li持续参与DeepSeek多款模型研发 [27][28][29][31][32]
DeepSeek新模型被硅谷夸疯了!
华尔街见闻·2025-10-21 18:13