视觉化输入
搜索文档
深度|DeepSeek-OCR引爆“语言vs像素”之争,Karpathy、马斯克站台“一切终归像素”,视觉派迎来爆发前夜
搜狐财经· 2025-10-21 20:25
技术核心:视觉编码与多分辨率机制 - 通过多分辨率视觉编码机制实现极高信息压缩效率,例如512×512图像仅需64个token,1024×1024图像对应256个token [2] - 采用“粗到细”路径处理复杂版面:整页用1024×1024块全局编码,重点区域再以640×640高分辨率单独处理 [2] - 底层逻辑是将文本渲染成图片后压缩为视觉token,替代传统“按字词切片→文本token”流程,实现从“读”到“看”的转变 [2] - 视觉压缩可将10万token文档折叠至几百个视觉token,显著改善延迟、显存和计算成本 [4] 工程优势与性能表现 - 视觉压缩带来三层直接收益:保全排版/层级结构等文本化易损失的信息、降低Transformer的N²计算复杂度、统一现实世界的混合输入格式 [4] - 项目探索视觉-文本压缩边界,实现10倍近无损压缩,20倍压缩下仍保持约60%准确度 [5] - 社区验证显示A100单卡可日处理约20万页,在吞吐/延迟/成本三角关系中打开新优化空间 [14] 创新概念:光学遗忘曲线 - 首次将“遗忘”引入模型设计逻辑,通过分辨率递减模拟人类记忆衰减:最近信息高分辨率保存,久远信息低分辨率压缩成模糊背景层 [7] - 该机制使上下文从平铺token变为立体时间空间结构,实现分层保留信息,更符合信息洪流时代的记忆方式 [7] - 多分辨率机制与NeurIPS最佳论文《Visual Autoregressive Modeling》的“由粗到细”多尺度预测方式高度相似 [11] 行业范式转变与定位 - 标志从“算力奥运会”向“更聪明喂法”的转变,不再单纯追求参数规模,而是优化输入效率 [3] - 视觉化输入将成为与文本并行的“第二轨”,最佳实践可能是“文-视双通道融合+任务自适应路由” [16] - 产品化贡献值得肯定,将分散研究成果整合为完整工程链路,刺激生态发展但非彻底技术突破 [12] 应用场景与特定优势 - 在复杂混排版面(合同、财报、图表)、跨语言字符体系、安全越狱防护及跨模态迁移场景具备天然优势 [17] - 统一输入为视觉可省去OCR+结构化的中间件环节,优化RAG、会话长期记忆及代码库理解等现实业务 [14] - 像素化输入绕过分词器词表瓶颈,对多语言任务更鲁棒,且字符级绕行在像素域难度更高 [17] 发展挑战与待解决问题 - 面临渲染差异、截图工况、抗压缩噪声等鲁棒性挑战,以及训练数据构建与标注成本问题 [15] - 需配套“任务自适应压缩率”和“局部校对回读”机制,防止有损压缩导致关键信息错误 [19] - 评测体系需从CER/WER升级至“版面-语义-逻辑一致性”指标,并量化“视觉遗忘”的副作用 [19] - 当前仅跑通“输入统一为视觉”半程,“输出视觉化”的终局实现依赖后续工具链与评测体系发展 [16]