视觉压缩
搜索文档
刚刚,DeepSeek 发布 OCR 2
程序员的那些事· 2026-01-27 23:40
DeepSeek-OCR 2模型发布 - 公司发布了新模型DeepSeek-OCR 2,采用创新的DeepEncoder V2方法,使AI能根据图像含义动态重排图像各部分,更接近人类视觉编码逻辑[1] - 在具体实现上,公司团队在论文中称采用了Qwen2-0.5B来实例化这一架构[1] 技术路线演进 - 去年10月DeepSeek-OCR的发布让行业首次意识到“视觉压缩”可能是一条被严重低估的技术路线[3] - 公司此次决定将这条技术路线走得更激进[3] 与传统OCR的差异 - 传统OCR体系遵循对图像进行均匀、规则扫描和编码的思路,不关心哪些视觉区域真正重要[3] - DeepSeek-OCR 1将OCR视为视觉压缩问题,将视觉内容压缩成更有利于语言模型理解的中间表示[3] - DeepSeek-OCR 2进一步推进该思路,DeepEncoder V2引入语义驱动的动态编码机制,在编码阶段判断关键区域并调整视觉token分配[3] 技术突破 - 视觉编码不再只是“预处理”,而是提前进入了“理解阶段”[4] - 模型采用语义驱动动态编码机制,根据区域重要性调整视觉token分配与表达方式[3] 开源策略 - 此次发布延续公司过往重要发布的惯例,模型、代码与技术报告同时开源[4] - 项目、论文和模型权重已同步上线[4]
与DeepSeek-OCR不谋而合,NeurIPS论文提出让LLM像人一样读长文本
机器之心· 2025-11-10 12:40
研究背景与核心问题 - 大语言模型在处理成千上万甚至几十万长度的长文本上下文时面临挑战,同时模型参数量已飙升至万亿级别,使得Token压缩成为必需品而非优化项[4] - 若不能有效缩减输入规模,即便最强大的大语言模型也难以高效处理海量信息[4] VIST框架核心思想 - 提出模仿人类“快-慢阅读通路”的视觉化压缩机制,让大模型具备“选择性阅读”能力,快速扫读并深入思考[7] - 快路径将远处次要上下文渲染为图像,由冻结的轻量级视觉编码器快速提取显著性语义[7][18] - 慢路径将关键的近处文本直接输入LLM,用于深层推理与语言生成[7][15] - 这种“视觉+语言”的双通道协作模拟了人类眼睛与大脑的协作方式[8] 概率感知视觉增强机制 - 引入概率感知视觉增强机制,教模型“略读”,抓住关键信息,忽略冗余词[22] - 采用基于频率的屏蔽策略,掩码高频低信息量词,重点保留低频高信息量词如名词、动词、数字等核心内容[23] - 经过语义优化的文本嵌入有效指导Resampler从文本图像中提取最重要语义信息[23] 性能与效率提升 - 在处理相同文本内容时,所需视觉Token数量仅为传统文本分词所需Token数量的56%(从1024个文本Token压缩到448个视觉Token),内存减少50%[10][25] - 在开放域问答任务及11个ICL基准任务上显著优于基于文本编码器的压缩方法CEPE[25] - 在极端条件下(所有篇章仅通过视觉编码器处理)仍能在开放域问答任务中达到与TinyLlama相当的性能[25] 视觉文本分词优势 - 视觉编码器充当视觉文本分词器,简化分词流程,无需近十步人工预处理,处理更直接高效[28] - 突破词表瓶颈,无需词表即可统一处理多种语言文本,降低计算与显存开销[29] - 对字符级噪声更鲁棒,关注整体视觉模式,对拼写错误或文本攻击具备天然抵抗力[30] - 多语言处理高效:与传统文本分词相比,可减少62%的日文Token、78%的韩文Token、27%的中文Token[31] 行业影响与未来潜力 - 展示了“视觉+语言”协作在大模型长文本理解中的巨大潜力,视觉驱动的Token压缩可能成为长上下文LLM的标准组件[32] - “先看再读”的策略有助于大模型在保证理解能力的同时大幅降低计算成本,为多模态智能理解铺平道路[33]