小型专家混合（Mixture of Experts） - 财报，业绩电话会，研报，新闻

小型专家混合（Mixture of Experts）

搜索文档

Karpathy盛赞DeepSeek-OCR“淘汰”tokenizer！实测如何用Claude Code 让新模型跑在N卡上

AI前线· 2025-10-21 12:54

DeepSeek-OCR模型技术突破 - 模型发布6.6GB专门为OCR微调的模型，首次量化视觉-文本token压缩比，验证10倍近无损压缩、20倍仍保有60%精度的可行性[2] - 提出DeepEncoder解决现有编码器高分辨率-低内存-少token不可兼得的问题，在实用场景达到SOTA且token消耗最少[2] - 采用仅12层的精简架构，因OCR本质是模式识别任务，不需要太多推理或长程记忆[5] - 进入新兴小型专家混合范式，总规模较大但每次推理仅激活5亿参数，能单批次处理大量数据[7] - 采用激进编码策略结合语义池化，在输入阶段进行大量信号压缩，显著提升处理速度[7] 输入范式革命性观点 - Karpathy提出根本性问题：对大语言模型而言像素可能比文本是更好的输入形式，文本token可能是浪费而糟糕的输入方式[3] - 认为Tokenizer必须被淘汰，许多文本到文本任务可重构为视觉到文本任务，但反过来行不通[4] - 未来用户输入可能都是图像，模型输出仍是文本，因生成像素级输出不现实且暂时不需要[4] - 图像输入优势：信息压缩更高效，在更短上下文窗口中包含更多信息；信息流更丰富，能自然包含加粗、颜色、格式等视觉要素[6] - 输入可天然使用双向注意力，而非语言模型必须的自回归逐步处理，结构表达更强大[6] 行业影响与竞争格局 - 代表轻量高效OCR模型最佳范例，可能成为未来所有OCR系统的起点[4] - 在多模态视觉语言模型出现前，业界领先的Google Cloud OCR模型规模仅一亿参数左右[4] - 17亿参数的dots.ocr在内部和公开基准测试中准确率普遍超过OpenAI、Anthropic，某些任务优于Gemini，成本仅为后者一小部分[4] - 模型意义在于成为真正基础型OCR模型，找到推理效率与性能最佳平衡点，奠定工程基础[8] - 要在大规模真实业务中应用，仍需针对特定领域进行数据标注和定制化流程设计[8] 开发者实践与部署案例 - 资深开发者Simon Willison花40分钟成功在NVIDIA Spark上运行模型，通过Claude Code用4次提示解决兼容问题[9] - 环境搭建涉及Docker容器、CUDA配置、npm安装Claude Code等步骤[10] - 遇到PyTorch 2.5.1不支持新GPU问题，通过寻找ARM版本CUDA wheel包，升级到PyTorch 2.9.0解决兼容性[14][15] - 模型成功识别文本与定位框，生成检测结果，不同提示词模式表现各异[16][17][19] - 实践总结成功要点：给予充分环境与目标、沙箱模式完全自主执行、关键时刻用经验引导[22]

大语言模型（LLM）

多模态视觉语言模型（VLM）

小型专家混合（Mixture of Experts）

Artificial Intelligence

小型专家混合（Mixture of Experts）

Artificial Intelligence

DeepSeek-OCR

Claude Code