DeepSeek OCR
搜索文档
精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓
钛媒体APP· 2025-10-27 10:34
技术性能对比 - DeepSeek OCR模型参数为30亿,在数学公式展开案例中未能识别出“极坐标”,且表格结构识别错误[2] - 参数规模仅9亿的PaddleOCR-VL模型在相同案例中表现优于DeepSeek OCR[2] - 在OCR模型综合性能排名中,DeepSeek-OCR-Gundam-M模型总体得分86.46,低于PaddleOCR-VL的92.56分[2] 技术创新与核心价值 - DeepSeek OCR的核心是DeepEncoder编码器,使用视觉Token对输入上下文信息进行编码,实现了9-10倍文本压缩下96%以上的OCR解码精度,10-12倍压缩下约90%的精度,20倍压缩下仍保持约60%的精度[10] - 该技术实现了连续可调的压缩率,可在压缩率和识别精度之间进行平滑权衡[11] - 模型提出类生物遗忘机制的压缩策略,近期上下文保持高分辨率,远期上下文逐步降低分辨率,模拟人类记忆的自然衰减[12] - 研究探索了解码N个文本Token需要多少个视觉Token的核心问题,证明了AI可以仅用100个视觉Token高精度解压缩出包含1000个文本Token的原文内容,且无需文本分词过程[17] 战略意义与行业影响 - DeepSeek OCR的深层价值在于探索“连续视觉表征压缩”,其研究方向隐隐指向终极追求——“世界模型”[6] - 该技术将大模型的前沿焦点从离散的语言Token重新转向连续视觉表征的视觉Token[6] - 论文证明了AI的主要信息入口可以从语言转向视觉,这种转变效率更高且更符合生物特性[20] - Vision→Text的任务空间完全包含了Text→Text的任务空间,任何文本都可以无损渲染成图像,这种不对称性暗示了将所有输入统一为视觉模态的激进方向[21] - 这一范式为解决长上下文建模中的效率瓶颈、记忆机制设计与多模态融合等核心问题提供了全新思路[22] 实际应用价值 - DeepSeek-OCR具备大规模预训练数据生产能力,可作为大语言模型训练过程中不可或缺的助手,每天可生成数千万页级别的训练数据,显著提升了多模态数据构建效率[15]
计算机行业周报 20251020-20251024:DeepSeek OCR 提供新思路!量子计算中美多热点解读!-20251025
申万宏源证券· 2025-10-25 22:05
行业投资评级与核心观点 - 报告未明确给出整体行业的投资评级 [6] - 核心观点聚焦于人工智能技术突破与量子计算发展两大主线:DeepSeek OCR发布为长上下文处理提供新思路,量子计算作为全球科技竞争焦点多技术路线快速推进 [6][7] DeepSeek OCR技术突破 - DeepSeek于2025年10月20日开源新模型DeepSeek OCR,通过光学压缩方式解决LLM处理长文本的计算量挑战 [8] - 核心技术采用创新性的光学上下文压缩,将文本内容渲染为图像并通过视觉编码器压缩为少量视觉token,实现文本信息高效压缩 [9] - 实验证明压缩比小于10倍时OCR解码精度可达97%,在OminiDocBench基准测试中使用更少量视觉tokens达到领先性能 [10] - 模型架构采用DeepEncoder编码器和DeepSeek-3B-MoE解码器,总参数量3B(激活参数570M),实现高压缩比和高推理效率 [12] - 处理效率大幅提升,将计算复杂度从O(n²)降至O(n),单张A100-40G GPU每日可支持20万页数据处理 [15] - 该技术对金融、医疗、法律、教育、科研等需要处理超长文档的场景具有重大意义,能高效解析图表、化学公式、几何图形等近100种语言 [16] 量子计算全球竞争态势 - 量子计算成为全球科技必争之地,各国通过战略规划与资本投入展开激烈角逐,2023年以来竞争加速 [17][18] - 全球量子计算专利技术来源国分布:美国49.34%,中国24.36%,欧洲9.67%,日本5.20%,呈现中美主导格局 [19] - 美国政府2024年通过能源部量子领导法案,计划5年投资约25亿美元,并在2026财年《国防授权法案》审议期间提出11项量子信息科学修正案 [22][23] - 中国“十五五”规划将量子科技列为新经济增长点,前瞻布局未来产业 [23] - 技术路线呈现多元化发展,超导和离子阱是当前商业化成熟度最高的两条路线,同时硅基半导体、拓扑等多种路线并行发展 [24][25] - 产业突破不断:IONQ实现99.99%双量子比特门保真度,谷歌Willow芯片运行“量子回声”算法速度超经典超算13000倍,IBM Condor芯片达1121量子比特 [27][29][30] 重点公司业绩更新 - 同花顺2025年第三季度实现收入14.8亿元,同比增长56.7%,归母净利润7亿元,同比增长144.5%,收入利润双超预期 [32] - 同花顺截至25Q3末合同负债达25.19亿元,前三季度经营现金流净额21.96亿元,同比增长235.3%,显示后续收入增长弹性 [32][33] - 科大讯飞2025年第三季度实现收入60.8亿元,同比增长10.02%,归母净利润1.7亿元,同比增长202.40%,利润超预期 [34] - 科大讯飞25Q1-Q3大模型相关中标金额和数量排名第一,Q3中标金额5.45亿元,新增开发者数量超122万,其中大模型开发者新增69万 [35] 投资标的梳理 - AIGC应用标的包括金山办公、万兴科技、科大讯飞、同花顺等16家公司 [6] - 数字经济领军标的包括海康威视、金山办公、恒生电子、中控技术等12家公司 [6] - 信创&数据标的包括海光信息、软通动力、索辰科技、太极股份等8家公司 [6] - AIGC算力标的包括浪潮信息、海光信息、神州数码、中科曙光等公司 [6] - 估值方面,金山办公2025年预测PE为76倍,海康威视22倍,恒生电子50倍,中控技术35倍,反映市场对不同赛道公司的估值差异 [40]
计算机行业周报:DeepSeekOCR提供新思路!量子计算中美多热点解读-20251025
申万宏源证券· 2025-10-25 21:07
行业投资评级 - 报告对计算机行业投资评级为“看好” [3] 核心观点 - 本周周报要点包括:DeepSeek OCR发布提供长上下文新思路;量子计算作为全球科技新领域多技术路线快速推进;重点公司同花顺、科大讯飞业绩更新 [6][7] DeepSeek OCR技术突破 - DeepSeek OCR通过光学上下文压缩创新解决LLM处理长文本的计算量挑战 [8] - 核心技术采用光学压缩将文本渲染为图像通过视觉编码器压缩为少量视觉token实现高效压缩 [9] - 实验证明压缩比<10倍时OCR解码精度可达97%单张A100-40G GPU每日支持20万页数据处理 [6][10][16] - 创新模型架构设计实现高压缩比和MoE架构编码器采用三级串联解码器基于MoE架构总参数量3B激活参数570M [12] - 通过视觉token压缩文本将计算复杂度从O(n²)降至O(n)缓解计算瓶颈 [16] DeepSeek OCR行业影响 - 有限资源条件下突破长上下文处理瓶颈问题解决计算复杂度及内存瓶颈 [18] - 重新定义VLM功能定位推动视觉优先成为LLM处理长上下文主流方案 [18] - Agent智能体可能加速发展过去基于GUI方式的智能体效果欠佳新方案带来变化 [18] - 应用层面能高效处理超长文档包括图表化学公式几何图形等近100种语言对金融法律医疗教育科研等场景具重大意义 [18] 量子计算全球竞争态势 - 量子计算被视为全球科技战略制高点各国通过国家战略与资本投入展开角逐 [19] - 2023年起全球量子竞争加速各国出台投资支持方案呈现中美主导其他国家加速追赶态势 [20] - 全球各国量子领域投资计划规模显著英国10年投资约12.15亿美元加拿大7年投资约3.6亿美元英国未来10年投资31.8亿美元澳大利亚2030年前投资6.4亿美元等 [20] - 中国“十五五”规划将量子科技列为新经济增长点前瞻布局未来产业 [25] 量子计算技术路线与产业进展 - 量子计算多技术路线并行发展超导和离子阱是当前商业化成熟度最高路线硅基半导体拓扑等多种路线并行发展 [27] - 全球企业在超导光量子离子阱等路线频频突破IONQ实现99.99%双量子比特门保真度谷歌量子计算机运算速度超经典超算13000倍 [28][31][33] - 量子计算处于NISQ阶段从实验室研究向产业化探索过渡硬件尚未完全成熟“量子-经典混合计算”为当前最实用方案 [25][27] - 国内企业进展包括国盾量子推出祖冲之三号超导量子计算机105量子比特本源量子推出本源悟空72量子比特超导等 [29] 量子计算资本市场动态 - 国内量子企业资本市场动作加速国仪量子提交IPO辅导工作完成报告本源量子开始IPO辅导 [34] - 尽管技术处于产业发展初期未大规模商业化但各国支持力度加大产业突破加速相关投资机会值得关注 [34] 重点公司业绩更新 - 同花顺2025Q1-3实现收入32.6亿元同比+39.7%归母净利润12.1亿元同比+85.3%单Q3收入14.8亿元同比+56.7%净利润7亿元同比+144.5%收入利润均超预期 [35] - 同花顺合同负债高增截至25Q3末达25.19亿元显示后续收入增长弹性经营现金流净额21.96亿元同比+235.3%现金流领先净利润 [35][37] - 科大讯飞2025Q3收入60.8亿元同比+10.02%归母净利润1.7亿元同比+202.40%利润超预期毛利率稳定40.38% [38] - 科大讯飞大模型中标金额和数量保持领先25Q1-Q3中标金额5.45亿元新增开发者数量超122万其中大模型开发者新增69万 [39] 行业重点标的推荐 - AIGC应用标的包括金山办公、鼎捷数智、万兴科技、道通科技、虹软科技、新致软件、中科创达、润达医疗、福昕软件、萤石网络、汉得信息 [6][41] - 数字经济领军标的包括海康威视、金山办公、恒生电子、中控技术、德赛西威、启明星辰、科大讯飞、华大九天、同花顺、金蝶国际、大华股份、新大陆 [6][40] - AIGC算力标的包括浪潮信息、海光信息、神州数码、中科曙光等 [6][41] - 信创&数据标的包括海光信息、软通动力、索辰科技、博思软件、能科科技、纳思达、太极股份、中国软件国际 [6]
DeepSeek OCR:醉翁之意不在酒
Founder Park· 2025-10-21 15:46
DeepSeek-OCR模型的技术特点 - 模型采用新颖思路,将文字当作图片处理和压缩,作为一个超级高效的“视觉压缩器”[7] - 能够将一篇1000字的文章压缩成100个视觉token,实现十倍压缩,识别准确率达到96.5%[7] - 提供多个分辨率选项,512 x 512图片仅需64个token,1024 x 1024图片需256个token,复杂版面组合使用多种分辨率[13] 行业专家评价与定位 - Karpathy认为未来所有输入大模型的信息都应该是图像形式,哪怕是纯文本也应先渲染成图片再喂给模型[7][11] - 模型性能和思路在学术界不算是重大突破,但产品化贡献值得肯定[13] - 研究思路可能受到字节跳动NeurIPS最佳论文和豆包团队论文启发,DeepSeek团队擅长将实验室研究成果进一步做扎实并产品化[14] 潜在应用方向与发展前景 - 该技术有望优化图文表混排场景处理,大量网页、文档、SaaS软件Dashboard和PPT都包含有效视觉信息,强行转文本会导致信息损失[15] - 如果技术成熟,将推动业界对图文表混排场景优化的研究热潮,提升效果并降低成本[15] - DeepSeek团队提出的用分辨率模拟遗忘机制的假想存在争议,可能更适合描述为“高度近视”而非有效遗忘机制[15]