优刻得完成DeepSeek-OCR-2接入

公司动态 - 优刻得于1月28日完成了DeepSeek-OCR-2的接入 [1] 技术进展 - DeepSeek最新开源的DeepSeek-OCR-2通过架构适配DeepEncoder V2,摒弃了经典的CLIP视觉分支,采用LLM作为视觉编码器 [1] - 该模型提出了视觉因果流范式,旨在解决多模态大模型在面对复杂表格或非线性文本时出现的语义与序列错配问题 [1] 技术原理与对比 - 传统的视觉语言模型存在固有的归纳偏置:采用光栅扫描并施加固定的绝对位置编码 [1] - 传统模型的扫描方式为从左到右、从上到下,这与人类“基于语义逻辑跳跃扫描”的视觉认知机制不同 [1] - 人类在阅读文档时,目光会随逻辑流动,遇到表格会按列或按行扫视,遇到分栏会自动跳跃 [1]