Workflow
Long - text processing
icon
搜索文档
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案
机器之心· 2026-01-10 12:06
视觉文本压缩技术突破 - DeepSeek-OCR推出的视觉文本压缩技术可将长文档渲染为高密度2D图像,再由视觉编码器转化为少量视觉Token,实现高达2倍至10倍的Token压缩率,大幅降低大模型处理长文本的计算与显存开销 [2][6][7] VTCBench基准测试 - 为评估视觉语言模型对压缩后高密度信息的理解能力,中科院自动化所等机构推出了首个专门针对视觉-文本压缩范式的基准测试VTCBench,其核心使命是衡量模型“看得见”之后的“看得懂”能力 [2][8] - VTCBench通过三大任务系统评估模型在视觉空间中的认知极限:信息检索、关联推理和长期记忆 [10] - 团队同步推出VTCBench-Wild,引入99种不同的渲染配置,以检测模型在复杂现实场景下的鲁棒性,该版本已集成到VLMevalkit [7][11] - VTCBench及其相关资源已在GitHub、Huggingface等平台全面开源 [4][7] 模型性能评估与行业洞察 - 对GPT、Gemini、Claude、QwenVL等10余种尖端模型的评测显示,虽然VTC极大提升了效率,但现有视觉语言模型在复杂推理和记忆任务上的表现仍显著弱于纯文本大语言模型 [16] - 评测结果呈现出显著的“U型曲线”,视觉语言模型能精准捕捉开头和结尾信息,但对中间部分的理解能力随文档变长而剧烈衰退,证明即使在视觉空间,模型依然存在严重的“空间注意力偏见” [14][15] - 消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度 [16] - Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径 [16] 技术意义与未来 - DeepSeek-OCR引领的VTC范式为长文本处理开辟了新路径,VTCBench的出现旨在确保模型在拥有高效压缩“超能力”的同时,依然能够理解压缩内容 [2][18]