上下文光学压缩
搜索文档
DeepSeek-OCR实现光学压缩 光计算可为大模型“减负”
36氪· 2025-11-27 16:49
文章核心观点 - 注意力机制是大语言模型成功的基石,但长上下文窗口导致算力需求指数级增长,例如上下文窗口长度达到1000K时,存储注意力矩阵需要约2TB显存[2] - DeepSeek提出的上下文光学压缩方法利用视觉token压缩文本token,其DeepSeek-OCR论文验证了可行性,并启发业内探索类似人脑的遗忘机制[2] - 光本位科技认为上下文光学压缩的验证说明光计算将成为大语言模型的未来,公司正积极推进光计算与大模型接轨[2] 视觉Token压缩文本技术 - DeepSeek-OCR方法在10倍压缩率下仍能保持96.5%的精度,展示了视觉压缩的可行性[3] - 当文本Token为600-700时,64个视觉Token可实现96.5%精度和10.5倍压缩,100个视觉Token可实现98.5%精度和6.7倍压缩[4] - DeepEncoder模块是实现压缩的核心引擎,包含SAM、两层卷积块和CLIP三个模块[5] - SAM模块通过窗口注意力机制分割图像,ViT模型关联局部窗口,关联性高的区域融合特征,空白区域因关联性差保持低特征值并被卷积块丢弃[5] - 压缩后的视觉token输入CLIP,利用全局注意力机制捕捉图像整体语义和上下文,最终将1000文本token压缩成100个视觉token[5] 光计算技术优势 - DeepSeek-OCR用到的ViT和CNN结构本质是信息聚合计算,需要高效硬件载体,光计算的并行架构天然适合此类计算[7] - 光计算芯片处理信息压缩的速度和能耗远优于电芯片,灵活性更高,计算逻辑可根据需求调整[7] - 光本位科技的全域可编程存算一体光计算引擎加速DeepEncoder后,计算效率提升100倍,能效比提升10倍[7] - 光计算简化计算过程,图像信息通过光学方式处理,卷积、缩放等计算在传播过程中完成,无需额外功耗[9] - 特有存算一体架构使光计算引擎在处理批量任务时保持"零静态维持功耗"[9] - 光计算芯片可扩展性更强,阵列规模扩大和参数刷新频率提升比电子芯片上限更高、能耗更少[11] 光计算硬件与大模型融合前景 - DeepSeek-OCR为光计算芯片通用化设计提供新思路,可能成为连接光计算硬件与大模型的突破点[13] - 光本位科技计划利用相变材料的非易失性模拟人脑神经元,实现高效计算和类脑信息编码存储[13] - 公司未来将推出上下文压缩专用硬件、AI任务专用硬件及配套软件栈,与大模型实现接轨[13] - 光计算可在大模型上提升近百倍算力和超过十倍能效比,为未来新计算范式提供高效计算基座[13] - 传统GPU受限于内存墙和功耗密度,光计算利用其大算力、高带宽、低功耗优势改变大模型现状[15] - 光本位科技计划构建全光大规模AI计算的下一代颠覆式平台系统,提供全场景覆盖的全栈光计算解决方案[15]
DeepSeek悄悄上线新模型
21世纪经济报道· 2025-10-30 18:42
核心观点 - DeepSeek发布全新多模态模型DeepSeek-OCR,其核心技术“上下文光学压缩”通过将文本作为图像处理,实现7-20倍的token压缩,理论上可实现无限上下文,并可能为光计算芯片进入大语言模型领域铺平道路 [1][3][4][5] 技术创新与原理 - 模型提出“上下文光学压缩”技术,将文本作为图像处理以实现高效信息压缩,例如一页文本通常需要2000-5000个文本tokens,转换为图像后仅需200-400个视觉tokens,实现7-20倍压缩 [3] - 在10倍压缩时保持97%解码精度,20倍压缩时仍有60%精度,该技术模拟人脑遗忘机制,通过将历史上下文渲染成图像并随时间降采样,模拟“近期信息高保真、远期信息自然褪去”的生物遗忘曲线 [3][4] - 技术能大幅降低数据分割和组装操作次数,从而降低整体计算负荷,降低对后端计算硬件在规模和精度上的直接压力 [4] 对光计算产业的潜在影响 - DeepSeek-OCR技术解决了光计算引入大模型的最大问题——序列上下文过长,其视觉编码器部分非常适合由光学协处理器执行,而文本解码部分仍由电子芯片处理,记忆压缩可完全交给光计算芯片实现最优分工 [5] - 光计算芯片利用光速传输、高并行性和低功耗特性,被誉为“后摩尔时代”潜力技术,该模型为光计算高并行性和低功耗优势发挥提供了明确技术路径 [1][5] - 光计算芯片目前处于产业化早期,主要需解决先进光电融合封装和软件生态成熟度问题,业内预计距离在数据中心与GPU同台竞技还需3-5年时间攻克工程、成本和生态难题 [6][7] 产业参与者和进展 - 国内主要光计算参与者包括曦智科技、图灵量子、光本位等公司,国外有Lightmatter、Lumai、Cerebras Systems等厂家 [6] - 图灵量子已围绕薄膜铌酸锂开展全流程研究并实现规模化量产,具备从设计、版图、流片、测试到封装的完整能力 [7]
DeepSeek-OCR:大模型技术,正站在一个新的十字路口
36氪· 2025-10-23 07:15
技术突破与核心观点 - DeepSeek开源了名为“DeepSeek-OCR”的模型,首次提出“上下文光学压缩”概念,将文字视为图像处理,通过视觉编码将整页内容压缩成少量“视觉标记” [1] - 该技术使文档处理效率提升十倍,准确率高达97%,模型可轻松应对超长文档而无需担忧计算资源 [1][2] - 技术探索意义在于重绘文档处理边界,挑战上下文限制,优化成本结构,革新企业流程 [7] 技术架构与性能 - 系统分为两个模块:强大的DeepEncoder负责捕捉页面信息,轻量级文本生成器将视觉标记转化为可读输出 [3] - 编码器融合SAM的局部分析能力和CLIP的全局理解,通过16倍压缩器将初始4096个标记精简到仅256个 [3] - 解码器采用混合专家架构,拥有约30亿参数(激活时约57亿),能快速生成文本、Markdown或结构化数据 [3] - 单台A100显卡每日可处理超过20万页文档,20台八卡服务器日处理量可达3300万页 [3] 效率优势与比较 - 处理千字文章时,传统方法需上千个标记,而DeepSeek仅需约100个视觉标记即以97%保真度还原 [2] - 相比GOT-OCR 2.0(需256个标记)和MinerU 2.0(每页6000+标记),DeepSeek标记量减少90% [3] - 处理3503×1668像素图像时,基础文本提取需24秒,结构化Markdown需39秒,带坐标框完整解析需58秒 [10] 应用前景与影响 - 技术将改变“标记经济”,长文档不再受上下文窗口限制,处理成本大幅降低 [6] - 提升信息提取能力,财务图表、技术图纸能直接转为结构化数据 [6] - 改善聊天机器人长对话记忆,通过“视觉衰减”将旧对话转为低分辨率图像存储,扩展上下文而不增加标记消耗 [6][11]
重磅,DeepSeek再开源:视觉即压缩,100个token干翻7000个
36氪· 2025-10-21 09:35
模型核心创新 - 提出“上下文光学压缩”新范式,通过少量视觉token解码出超过其数量10倍的文本信息,实现高比例信息压缩 [1] - 采用端到端视觉语言模型架构,在OCR任务上建立视觉与文本表征间的压缩-解压缩映射关系 [2] - 该技术为解决大语言模型的长上下文问题提供了高效方案,在不同历史上下文阶段可减少7–20倍token使用量 [16] 模型架构设计 - 编码器采用创新的DeepEncoder架构,参数量约3.8亿,由8000万参数的SAM-base和3亿参数的CLIP-large串联构成 [23][24] - 编码器通过2层卷积模块实现16倍下采样,将4096个patch token压缩至256个视觉token [26][27] - 解码器使用DeepSeek-3B-MoE,推理时激活6个路由专家和2个共享专家,总计激活约5.7亿参数 [34][36] - 支持多种分辨率输入模式,包括Tiny(512)、Small(640)、Base(1024)、Large(1280)及动态分辨率组合 [29][33] 性能表现与基准测试 - 在Fox基准测试中,使用64个视觉token可实现10.5倍压缩比且精度达96.5%,使用100个视觉token可实现6.7倍压缩比且精度达98.5% [37] - 在OmniDocBench基准上,仅用100个视觉token即超越GOT-OCR2.0,用不到800个视觉token表现优于需要6000+token的MinerU2.0 [2][44] - 对于书籍和报告类文档,仅需100个视觉token即可达到良好性能,因这类文档文本token数量通常在1000以内 [42] - 模型还具备解析图表、化学方程式、几何图形和自然图像的能力,支持近100种语言处理 [43][46] 实际应用价值 - 单张A100-40G显卡可支持每日20万页以上的大语言模型训练数据生成 [4] - 在实际部署中,使用20个计算节点每日可为LLM/VLM生成3300万页训练数据 [39] - 该技术可直接利用现有VLM基础设施,不带来额外计算开销,具备天然支持条件 [39] - 模型在GitHub上已开源,获得400星和8个分支,采用MIT许可证 [18]
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
华尔街见闻· 2025-10-21 08:27
模型核心创新与技术突破 - 提出“上下文光学压缩”方法,通过将文本信息压缩到图像中以视觉token表示,用少量视觉token替代大量文本token,显著降低大模型处理长文本时的计算开销[4] - 模型参数规模为3B,但在主流文档解析基准OmniDocBench上取得新SOTA,实现“以小博大”[4] - 当压缩率小于10倍时,模型OCR解码准确率高达97%,即使压缩率高达20倍,准确率仍能保持在60%左右[1] 模型性能与效率优势 - 仅用100个视觉token,性能即超过每页使用256个token的GOT-OCR2 0模型[7] - 当使用400个视觉token时,性能与之前的SOTA模型相当;使用不到800个视觉token,性能便大幅超越平均每页近7000个视觉token的MinerU2 0模型[7] - 数据生成效率极高,仅凭一块A100-40G GPU,每天就能生成超过20万页的优质LLM/VLM训练数据[2] 核心架构与关键技术 - 编码器DeepEncoder采用“先局部处理,再压缩,后全局理解”的串行设计,处理高分辨率图像时能产出数量极少但信息密度极高的视觉token[10][13] - 解码器DeepSeek3B-MoE-A570M负责从压缩的视觉token里重建文字[8] - 编码器支持从“Tiny”到“Gundam”等多种输入模式,可根据任务需要动态调整压缩强度,Tiny模式使用64个token,Gundam模式使用近800个token[11][12] 行业影响与社区反响 - 研究在GitHub上迅速斩获3 3K star,HuggingFace热榜第二,X上好评如潮[2] - 被业内专家评价为“AI的JPEG时刻”,认为图像比文字更适合作为LLM输入,为AI记忆架构打开了新路径[2] - 该统一视觉与语言的方法被认为是通往AGI的潜在路径之一[4] 潜在应用与未来方向 - 模型支持对金融报表、化学分子式、数学几何图、100多种语言等复杂图像进行深度解析[12] - 提出将光学压缩类比人类记忆衰退过程的新思路,可为不同时期的上下文动态分配计算资源,有望构建无限长上下文架构[19][20][22] - 该研究方向旨在让AI记忆机制更接近人类智能,为处理超长上下文提供新思路[21]
刚刚,DeepSeek重要突破,大模型上下文紧箍咒打破
36氪· 2025-10-21 07:22
核心技术路径 - 首次提出“上下文光学压缩”概念,通过将文本转换为图像实现信息高效压缩[1] - 在10倍压缩比下解码精度达97%,20倍压缩比下精度仍保持约60%[3] - 将文本token转化为视觉token后能用更少token表达相近内容,为降低长文本处理算力开销提供新思路[6] 模型性能表现 - 在OmniDocBench上仅使用100个视觉token即超越GOT-OCR2.0(每页256个token)[6] - 使用少于800个视觉tokens情况下性能超过MinerU2.0(平均每页近7000个token)[6] - 生产环境中每天在单个A100-40G GPU上可生成20万页以上训练数据[8] 模型架构设计 - DeepEncoder视觉编码器采用SAM+CLIP双结构设计,支持从Tiny(64 token)到Gundam(795 token)多种分辨率模式[14] - 输入1024×1024文档图片时能将传统模型的4096个token压缩至256个[14] - DeepSeek3B-MoE解码器推理时仅激活6个专家模块,总激活参数量约5.7亿[18] 应用场景能力 - 具备深度解析能力,可识别图表、几何图形、化学结构式及自然图像等[24] - 在金融报告中能自动提取图表结构化信息[24] - 支持处理近百种语言,包括阿拉伯语与僧伽罗语等小语种[34][36] - 保留通用视觉理解能力,包括图像描述、物体检测和目标定位等任务[36] 数据训练体系 - 训练数据包含OCR 1.0数据(3000万页多语言文档)、OCR 2.0数据(图表公式解析)、通用视觉数据和纯文本数据四大类型[19][25] - 训练流程分为DeepEncoder独立训练和完整模型训练两个阶段[20] - 通过600万条采样数据微调获得Gundam-master超高分辨率模式[20] 行业影响意义 - 验证了视觉模态在文本压缩中的有效性,为大模型处理超长上下文提供新路径[39] - 展示通过优化信息表达方式提高模型效率的可能路径[39] - 为VLM视觉token优化、上下文压缩机制等研究方向提供有价值参考[39]