Workflow
光计算
icon
搜索文档
DeepSeek-OCR实现光学压缩 光计算可为大模型“减负”
36氪· 2025-11-27 16:49
为了解决这个问题,DeepSeek设想通过上下文光学压缩的方法实现利用视觉token对文本token完成压缩,最终DeepSeek-OCR的论文验证了这一设想可行性, 并启发业内尝试推动让大模型像人一样开始遗忘。 光计算系统解决方案商光本位科技表示,上下文光学压缩可行性的验证,更进一步说明光计算会成为大语言模型的未来,公司正积极推进光计算与大模型接 轨。 01 用"视觉token"压缩文本 在DeepSeek-OCR的论文中,DeepSeek用数据展示了该方法在视觉压缩上的能力,当压缩率达到10倍时,仍然能保持96.5%的精度,这一惊人的表现揭露了 视觉压缩的可行性。 注意力机制是大语言模型能够取得成功的重要基石,然而随着上下文窗口不断增加,计算注意力矩阵所需的算力呈指数级增长,当上下文窗口长度达到 1000K 时,仅存储注意力矩阵就需要约 2TB 的显存,最终将导致大模型"脑子"不够用了。 最后经过提取、压缩的视觉token被输入到CLIP,利用全局注意力机制,从这些压缩后的信息中捕捉图像的整体语义和上下文。 至此DeepSeek-OCR完成了全部的压缩环节,成功将原本需要1000文本token才能代表的数 ...