文本已死,视觉当立,Karpathy狂赞DeepSeek新模型,终结分词器时代
Seek .Seek .(US:SKLTY) 36氪·2025-10-21 15:22

技术突破 - DeepSeek-OCR模型从根本上改变文本处理范式,将视觉输入作为核心,文本不再作为通用输入方式[1] - 模型在单卡A100-40G上实现每秒约2500 Token的处理速度,在保持97% OCR准确率前提下将视觉上下文压缩至原来的1/20,常规使用下压缩比小于1/10[3] - 在OmniDocBench基准测试中超越GOT-OCR2.0和MinerU2.0表现,实现最多60倍压缩,整页文本仅需100个视觉Token[5] 性能优势 - 模型具有参数少、压缩率高、速度快的特点,支持100种语言,兼具理论价值和实用性强[7] - 通过像素处理文本实现更高信息压缩率,带来更短上下文窗口和更高效率,同时增强信息流通用性,可处理粗体、彩色文本及任意图像[15] - 输入可采用双向注意力机制处理,相比自回归注意力更强大,实现光学文字识别的工程学突破[3][15] 行业影响 - GitHub开源项目一夜收获4.4k星,证明实体页面(如缩微胶片、书籍)是训练AI模型的更优数据源,而非低质量互联网文本[10][11] - 特斯拉前AI总监Karpathy力挺该技术,认为像素输入优于文本输入,可能动摇文本在AI中的核心地位,视觉或再次成为主流[12][14] - 技术展望显示OCR只是视觉到文本应用的一种,文本到文本任务可改造为视觉到文本任务,用户输入可以是图像而解码器响应保持文本[17] 技术前景 - Karpathy提出可能所有大语言模型输入都应该是图像,即使纯文本也应先渲染成图像再处理,这将带来输入方式的根本性变革[15] - 马斯克预测长期来看AI模型超过99%的输入和输出将是光子,基于可观测宇宙中光子总数达1.5×10⁸⁹的规模优势[25][27] - 该技术被视为光学认知的开端,网友呼吁开发仅使用图像输入的nanochat,认为像素时代关乎感知而不仅是压缩[19][20] 研发团队 - 论文作者包括Haoran Wei、Yaofeng Sun、Yukun Li,其中一作Haoran Wei曾是GitHub 7.9k星项目GOT-OCR2.0的一作[28][30] - 团队成员参与过DeepSeek-r1、DeepSeek-v3、DeepSeek-vl2、DeepSeek-v2等多个重要模型研发,具有丰富经验[35][43] - 团队成员学术背景强劲,Haoran Wei本科毕业于北京大学图灵班,曾获得ACM-ICPC亚洲区域赛金牌和全国信息学奥林匹克竞赛金牌[41]