视觉 - 文本压缩范式
搜索文档
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
华尔街见闻· 2025-10-21 08:27
模型核心创新与技术突破 - 提出“上下文光学压缩”方法,通过将文本信息压缩到图像中以视觉token表示,用少量视觉token替代大量文本token,显著降低大模型处理长文本时的计算开销[4] - 模型参数规模为3B,但在主流文档解析基准OmniDocBench上取得新SOTA,实现“以小博大”[4] - 当压缩率小于10倍时,模型OCR解码准确率高达97%,即使压缩率高达20倍,准确率仍能保持在60%左右[1] 模型性能与效率优势 - 仅用100个视觉token,性能即超过每页使用256个token的GOT-OCR2 0模型[7] - 当使用400个视觉token时,性能与之前的SOTA模型相当;使用不到800个视觉token,性能便大幅超越平均每页近7000个视觉token的MinerU2 0模型[7] - 数据生成效率极高,仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据[2] 核心架构与关键技术 - 编码器DeepEncoder采用“先局部处理,再压缩,后全局理解”的串行设计,处理高分辨率图像时能产出数量极少但信息密度极高的视觉token[10][13] - 解码器DeepSeek3B-MoE-A570M负责从压缩的视觉token里重建文字[8] - 编码器支持从“Tiny”到“Gundam”等多种输入模式,可根据任务需要动态调整压缩强度,Tiny模式使用64个token,Gundam模式使用近800个token[11][12] 行业影响与社区反响 - 研究在GitHub上迅速斩获3 3K star,HuggingFace热榜第二,X上好评如潮[2] - 被业内专家评价为“AI的JPEG时刻”,认为图像比文字更适合作为LLM输入,为AI记忆架构打开了新路径[2] - 该统一视觉与语言的方法被认为是通往AGI的潜在路径之一[4] 潜在应用与未来方向 - 模型支持对金融报表、化学分子式、数学几何图、100多种语言等复杂图像进行深度解析[12] - 提出将光学压缩类比人类记忆衰退过程的新思路,可为不同时期的上下文动态分配计算资源,有望构建无限长上下文架构[19][20][22] - 该研究方向旨在让AI记忆机制更接近人类智能,为处理超长上下文提供新思路[21]