Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer!实测如何用Claude Code 让新模型跑在N卡上
AI前线·2025-10-21 12:54
作者 | 褚杏娟 昨天,DeepSeek 发布了一个新模型 DeepSeek-OCR。 这是一个专门为 OCR(文字识别)微调的 6.6GB 模型,主要贡献在于首次量化 "视觉 - 文本 token 压缩比",验证 10× 近无损压缩、20× 仍保有 60% 精 度的可行性;提出 DeepEncoder,解决现有编码器 "高分辨率 - 低内存 - 少 token" 不可兼得的问题;开发 DeepSeek-OCR,在实用场景达 SOTA 且 token 消耗最少,兼具科研价值与产业落地能力。 开源地址及论文全文:https://github.com/deepseek-ai/DeepSeek-OCR 这篇论文引发了不少人关注,其中 Karpathy 就直言:"我很喜欢这篇新的 DeepSeek-OCR 论文。" 它是一个不错的 OCR 模型(可能比 dots 稍微差一点),数据收集等方面也都做得不错,但这些其实都不是最让我感兴趣的部分。 我更在意的,是一个更根本的问题——对大语言模型(LLM)来说,像素是否比文本更好的输入形式?也就是说,文本 token 会不会其实是 一种"浪费而糟糕"的输入方式? 或许,从逻辑 ...