大模型范式转变
搜索文档
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
36氪· 2025-10-21 12:12
「我很喜欢新的 DeepSeek-OCR 论文…… 也许更合理的是,LLM 的所有输入都应该是图像。即使碰巧有纯文本输入,你更应该先渲染它,然 后再输入。」 一夜之间,大模型的范式仿佛被 DeepSeek 新推出的模型给打破了。 昨天下午,全新模型 DeepSeek-OCR 突然开源。在该模型的处理过程中,1000 个字的文章能被压缩成 100 个视觉 token,十倍的压缩下精度也可以达到 97%,一块英伟达 A100 每天就可以处理 20 万页的数据。 这种方式或许可以解决大模型领域目前头疼的长上下文效率问题,更重要的是,如果「看」文本而不是「读」文本最终被确定为正确的方向,也意味着大 模型的范式会发生重要的转变。 GitHub 上,DeepSeek-OCR 项目一晚收获了超过 4000 个 Star。 因为是开源的小模型,DeepSeek-OCR 第一时间经历了整个 AI 社区的检验,很多大佬在看完论文之后纷纷发表了看法,兴奋之情溢于言表。 OpenAI 联合创始成员之一,前特斯拉自动驾驶总监 Andrej Karpathy 表示,它是一个很好的 OCR 模型。 纽约大学助理教授谢赛宁也发推对 Karp ...
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心· 2025-10-21 11:43
技术突破与核心优势 - 全新模型DeepSeek-OCR实现技术突破,将1000字文章压缩为100个视觉token,压缩率达十倍,精度高达97% [1] - 单块英伟达A100每天可处理20万页数据,极大提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,例如1万英文单词原本对应15000个文本token,现仅需约1500个视觉token即可完整表示 [9] - 该方法可能解决大模型领域的长上下文效率问题,并为大幅扩展模型有效上下文长度(如一千万至两千万token级别)提供潜力路径 [1][12] 行业影响与社区反响 - 模型开源后迅速获得AI社区关注,GitHub项目一晚收获超过4000个Star [1] - OpenAI联合创始成员Andrej Karpathy肯定其作为OCR模型的价值,并引发对“像素是否比文本更适合作为LLM输入”的范式转变思考 [3][5] - 研究者认为该方法颠覆了传统多模态LLM中视觉token效率低下的观念,使视觉表示文本成为更高效的选择 [9] - 技术思路被与谷歌Gemini模型可能采用的核心技术相联系,但DeepSeek-OCR的可贵之处在于完全开源模型权重与方法细节 [12] 潜在应用场景 - 高压缩效率使将公司所有关键内部文档塞进提示词前缀并缓存成为可能,实现快速且经济地查询而无需搜索工具 [12] - 可将整个代码库放入上下文中缓存,每次修改仅需追加差异部分内容,提升开发效率 [13] - 技术若与DeepSeek早前发布的稀疏注意力机制DSA结合使用,前景将更加令人兴奋 [11] - 已有开发者成功在英伟达Spark硬件和Mac上部署该模型,例如Django框架联合创建者使用4个提示词在40分钟内完成部署 [14][15] 技术渊源与学界评价 - 核心方法思路并非首创,早在2022年哥本哈根大学等机构的论文《Language Modelling with Pixels》已提出类似思想,其PIXEL模型通过渲染文本为图像解决词汇瓶颈问题 [18][20] - 后续有多篇研究成果对此思路进行发展和改进,包括CVPR 2023的CLIPPO模型和NeurIPS 2024、2025的相关论文 [21][24] - 有批评声音指出该方法不存在渐进性,不像人类,例如Meta研究者Lucas Beyer的评论 [25] - 纽约大学助理教授谢赛宁对Karpathy的评论深感共鸣,其本人曾将Transformer架构与扩散模型结合提出DiT,为文生视频开辟新道路 [5][8]