Workflow
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心·2025-10-21 11:43

技术突破与核心优势 - 全新模型DeepSeek-OCR实现技术突破,将1000字文章压缩为100个视觉token,压缩率达十倍,精度高达97% [1] - 单块英伟达A100每天可处理20万页数据,极大提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,例如1万英文单词原本对应15000个文本token,现仅需约1500个视觉token即可完整表示 [9] - 该方法可能解决大模型领域的长上下文效率问题,并为大幅扩展模型有效上下文长度(如一千万至两千万token级别)提供潜力路径 [1][12] 行业影响与社区反响 - 模型开源后迅速获得AI社区关注,GitHub项目一晚收获超过4000个Star [1] - OpenAI联合创始成员Andrej Karpathy肯定其作为OCR模型的价值,并引发对“像素是否比文本更适合作为LLM输入”的范式转变思考 [3][5] - 研究者认为该方法颠覆了传统多模态LLM中视觉token效率低下的观念,使视觉表示文本成为更高效的选择 [9] - 技术思路被与谷歌Gemini模型可能采用的核心技术相联系,但DeepSeek-OCR的可贵之处在于完全开源模型权重与方法细节 [12] 潜在应用场景 - 高压缩效率使将公司所有关键内部文档塞进提示词前缀并缓存成为可能,实现快速且经济地查询而无需搜索工具 [12] - 可将整个代码库放入上下文中缓存,每次修改仅需追加差异部分内容,提升开发效率 [13] - 技术若与DeepSeek早前发布的稀疏注意力机制DSA结合使用,前景将更加令人兴奋 [11] - 已有开发者成功在英伟达Spark硬件和Mac上部署该模型,例如Django框架联合创建者使用4个提示词在40分钟内完成部署 [14][15] 技术渊源与学界评价 - 核心方法思路并非首创,早在2022年哥本哈根大学等机构的论文《Language Modelling with Pixels》已提出类似思想,其PIXEL模型通过渲染文本为图像解决词汇瓶颈问题 [18][20] - 后续有多篇研究成果对此思路进行发展和改进,包括CVPR 2023的CLIPPO模型和NeurIPS 2024、2025的相关论文 [21][24] - 有批评声音指出该方法不存在渐进性,不像人类,例如Meta研究者Lucas Beyer的评论 [25] - 纽约大学助理教授谢赛宁对Karpathy的评论深感共鸣,其本人曾将Transformer架构与扩散模型结合提出DiT,为文生视频开辟新道路 [5][8]