大模型范式转变
搜索文档
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
36氪· 2025-10-21 12:12
模型技术突破 - 新模型采用视觉方式处理文本输入,将1000字文章压缩为100个视觉token,实现10倍压缩比且精度达97% [1] - 单块英伟达A100每天可处理20万页数据,显著提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,原本需10000单词的文本现仅需约1500个视觉token即可完整表示 [8] 行业范式转变潜力 - 技术路径从“读”文本转变为“看”文本,可能引发大模型基础范式的重大转变 [1] - 该方法使双向注意力处理输入成为可能,功能比自回归注意力更强大 [6] - 移除输入端的分词器,解决分词器带来的Unicode编码历史包袱及安全越狱风险 [6] 社区反响与应用前景 - 项目在GitHub上一晚收获超过4000个Star,受到AI社区广泛关注 [1] - 研究者认为该技术可与稀疏注意力机制结合,极大扩展模型有效上下文长度至千万token级别 [9][10] - 潜在应用包括将公司全部内部文档或整个代码库存入提示词前缀,实现快速经济查询 [10][11] 技术渊源与对比 - 类似思想早在2022年哥本哈根大学论文《Language Modelling with Pixels》中就已提出 [14] - 研究者推测谷歌Gemini模型巨大上下文窗口及优异OCR表现可能源于类似技术 [10] - 与传统多模态模型相比,新方法使视觉token从“外挂”功能转变为更基础的表示形式 [7]
DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了
机器之心· 2025-10-21 11:43
技术突破与核心优势 - 全新模型DeepSeek-OCR实现技术突破,将1000字文章压缩为100个视觉token,压缩率达十倍,精度高达97% [1] - 单块英伟达A100每天可处理20万页数据,极大提升长上下文处理效率 [1] - 视觉token压缩效率比文本token高出10倍,例如1万英文单词原本对应15000个文本token,现仅需约1500个视觉token即可完整表示 [9] - 该方法可能解决大模型领域的长上下文效率问题,并为大幅扩展模型有效上下文长度(如一千万至两千万token级别)提供潜力路径 [1][12] 行业影响与社区反响 - 模型开源后迅速获得AI社区关注,GitHub项目一晚收获超过4000个Star [1] - OpenAI联合创始成员Andrej Karpathy肯定其作为OCR模型的价值,并引发对“像素是否比文本更适合作为LLM输入”的范式转变思考 [3][5] - 研究者认为该方法颠覆了传统多模态LLM中视觉token效率低下的观念,使视觉表示文本成为更高效的选择 [9] - 技术思路被与谷歌Gemini模型可能采用的核心技术相联系,但DeepSeek-OCR的可贵之处在于完全开源模型权重与方法细节 [12] 潜在应用场景 - 高压缩效率使将公司所有关键内部文档塞进提示词前缀并缓存成为可能,实现快速且经济地查询而无需搜索工具 [12] - 可将整个代码库放入上下文中缓存,每次修改仅需追加差异部分内容,提升开发效率 [13] - 技术若与DeepSeek早前发布的稀疏注意力机制DSA结合使用,前景将更加令人兴奋 [11] - 已有开发者成功在英伟达Spark硬件和Mac上部署该模型,例如Django框架联合创建者使用4个提示词在40分钟内完成部署 [14][15] 技术渊源与学界评价 - 核心方法思路并非首创,早在2022年哥本哈根大学等机构的论文《Language Modelling with Pixels》已提出类似思想,其PIXEL模型通过渲染文本为图像解决词汇瓶颈问题 [18][20] - 后续有多篇研究成果对此思路进行发展和改进,包括CVPR 2023的CLIPPO模型和NeurIPS 2024、2025的相关论文 [21][24] - 有批评声音指出该方法不存在渐进性,不像人类,例如Meta研究者Lucas Beyer的评论 [25] - 纽约大学助理教授谢赛宁对Karpathy的评论深感共鸣,其本人曾将Transformer架构与扩散模型结合提出DiT,为文生视频开辟新道路 [5][8]