Workflow
视觉token压缩
icon
搜索文档
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
36氪· 2025-10-21 12:12
模型技术突破 - 新模型采用视觉方式处理文本输入,将1000字文章压缩为100个视觉token,实现10倍压缩比且精度达97% [1] - 单块英伟达A100每天可处理20万页数据,显著提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,原本需10000单词的文本现仅需约1500个视觉token即可完整表示 [8] 行业范式转变潜力 - 技术路径从“读”文本转变为“看”文本,可能引发大模型基础范式的重大转变 [1] - 该方法使双向注意力处理输入成为可能,功能比自回归注意力更强大 [6] - 移除输入端的分词器,解决分词器带来的Unicode编码历史包袱及安全越狱风险 [6] 社区反响与应用前景 - 项目在GitHub上一晚收获超过4000个Star,受到AI社区广泛关注 [1] - 研究者认为该技术可与稀疏注意力机制结合,极大扩展模型有效上下文长度至千万token级别 [9][10] - 潜在应用包括将公司全部内部文档或整个代码库存入提示词前缀,实现快速经济查询 [10][11] 技术渊源与对比 - 类似思想早在2022年哥本哈根大学论文《Language Modelling with Pixels》中就已提出 [14] - 研究者推测谷歌Gemini模型巨大上下文窗口及优异OCR表现可能源于类似技术 [10] - 与传统多模态模型相比,新方法使视觉token从“外挂”功能转变为更基础的表示形式 [7]