视觉token压缩 - 财报，业绩电话会，研报，新闻 - Reportify

视觉token压缩

搜索文档

DeepSeek的新模型很疯狂：整个AI圈都在研究视觉路线，Karpathy不装了

36氪· 2025-10-21 12:12

模型技术突破 - 新模型采用视觉方式处理文本输入，将1000字文章压缩为100个视觉token，实现10倍压缩比且精度达97% [1] - 单块英伟达A100每天可处理20万页数据，显著提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍，原本需10000单词的文本现仅需约1500个视觉token即可完整表示 [8] 行业范式转变潜力 - 技术路径从“读”文本转变为“看”文本，可能引发大模型基础范式的重大转变 [1] - 该方法使双向注意力处理输入成为可能，功能比自回归注意力更强大 [6] - 移除输入端的分词器，解决分词器带来的Unicode编码历史包袱及安全越狱风险 [6] 社区反响与应用前景 - 项目在GitHub上一晚收获超过4000个Star，受到AI社区广泛关注 [1] - 研究者认为该技术可与稀疏注意力机制结合，极大扩展模型有效上下文长度至千万token级别 [9][10] - 潜在应用包括将公司全部内部文档或整个代码库存入提示词前缀，实现快速经济查询 [10][11] 技术渊源与对比 - 类似思想早在2022年哥本哈根大学论文《Language Modelling with Pixels》中就已提出 [14] - 研究者推测谷歌Gemini模型巨大上下文窗口及优异OCR表现可能源于类似技术 [10] - 与传统多模态模型相比，新方法使视觉token从“外挂”功能转变为更基础的表示形式 [7]

Seek .(US:SKLTY)

视觉token压缩

大模型范式转变

Artificial Intelligence

视觉token压缩

大模型范式转变

Artificial Intelligence