Workflow
无限长上下文架构
icon
搜索文档
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
量子位· 2025-10-21 07:34
核心观点 - DeepSeek最新开源模型DeepSeek-OCR采用创新的视觉压缩技术解决长文本处理算力爆炸难题实现以小博大的效能突破[1][5][12] - 该模型仅3B参数但在文档解析基准测试中达到SOTA水平通过将文本压缩为视觉token大幅降低计算开销[5][13][14] - 技术思路被行业专家评价为可能打开AGI大门并模拟人类记忆机制为无限长上下文处理提供新方向[9][10][36] 技术原理 - 核心组件包括DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器采用先局部处理再压缩后全局理解的串行设计[20][22][27] - 编码器支持从Tiny到Gundam多种输入模式可根据任务需求动态调整压缩强度使用100-800个视觉token实现高效处理[23][24][25] - 当压缩率小于10倍时模型OCR解码准确率高达97%即使压缩率达20倍准确率仍保持在60%左右[6] 性能表现 - 在OmniDocBench基准测试中仅用100个视觉token就超越每页使用256个token的GOT-OCR2.0模型[17] - 使用400个视觉token时与之前SOTA模型表现相当而使用不到800个token便大幅超越平均每页近7000个token的MinerU2.0[17] - 模型支持金融报表化学分子式数学几何图等复杂图像解析以及100多种语言的深度处理能力[25] 行业影响 - 研究公布后迅速在GitHub斩获3.3K starHuggingFace热榜第二X平台引发广泛好评[7] - 专家评价认为图像比文字更适合LLM输入并将该技术类比为AI的JPEG时刻开启记忆架构新路径[8][9] - 业内猜测该方法可能涉及谷歌Gemini核心商业机密的开源体现技术的前沿性和颠覆性[1][10] 创新拓展 - 团队提出用光学压缩模拟人类遗忘机制通过动态分配计算资源构建无限长上下文处理架构[36][37][41] - 该机制将近期记忆渲染为高分辨率图像远期记忆渐进压缩实现信息自然遗忘更贴近人类智能[41][39] - 研究虽处早期阶段但为超长对话和文档处理提供新思路解决传统方法计算资源暴涨问题[38]