Workflow
文档理解
icon
搜索文档
DeepSeek-OCR2:以“因果阅读顺序”重塑复杂文档理解
海通国际证券· 2026-01-29 08:58
报告行业投资评级 * 报告未对特定公司或行业给出明确的投资评级(如“优于大市”、“中性”或“弱于大市”)[1] 报告核心观点 * 报告认为DeepSeek-OCR 2模型通过引入“因果阅读顺序”的架构创新,显著提升了复杂文档的理解准确性与处理效率,其性能已进入行业第一梯队,并具备出色的性能-效率平衡能力,对产业落地具有明确的成本和应用优势[1][2][3][4] 事件与模型升级总结 * DeepSeek团队于2026年1月27日发布论文并开源DeepSeek-OCR 2模型[1] * 核心升级在于视觉编码器DeepEncoder V2,使模型从传统的机械扫描方式转变为依据文档结构与语义进行动态理解[1] * 模型采用轻量级语言模型Qwen2-500M替代原有编码器,并引入“因果流查询”机制,在编码阶段对视觉信息进行逻辑重组,模仿人类阅读的认知过程[2] 性能表现与基准测试总结 * 在权威基准OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分达91.09%,较上一代提升3.73个百分点[3] * 反映阅读顺序准确性的编辑距离指标从0.085优化至0.057[3] * 横向对比中,其得分略低于排名第一的PaddleOCR-VL(92.86%),但差距较小[3] * 在同等1120个视觉token预算下,其文档解析编辑距离为0.100,优于Gemini 3 Pro的0.115[3][11] 产业落地与商业价值总结 * 模型处理复杂文档页面仅需256至1120个视觉token,极高的信息压缩效率将降低下游大模型的计算负载与处理时延[4] * 模型以Apache-2.0协议开源,参数量为30亿,易于企业集成[4] * 可应用于PDF转Markdown、表格与公式结构化抽取、RAG知识库构建等场景[4] * 实际生产反馈显示,其在线上日志图像处理中的文本“重复率”从6.25%下降至4.17%,在批量PDF处理中从3.69%下降至2.88%[4] 技术架构与长期意义总结 * 此次升级是一次架构方向试探,将“阅读顺序与结构理解”能力前置至视觉编码器阶段[5] * 该架构创新为视觉-语言模型设计提供了新的技术路径,并能作为生成高质量结构化训练数据的工具,反哺大语言模型的优化[5] * 研发团队明确了模型当前边界与后续迭代方向,形成了“问题可归因、优化有路径”的迭代方法论[5]
让GPT-4o准确率大降,这个文档理解新基准揭秘大模型短板
机器之心· 2025-05-24 12:07
多模态大模型在文档理解领域的现状 - 当前多模态大模型(MLLMs)在文档理解基准测试(如DocVQA、ChartQA)中表现优异,但现有基准存在两大核心缺陷:脱离真实场景和无法评估鲁棒性[1] - 真实场景中文档多为手机/相机拍摄的纸质文件或屏幕截图,面临光照不均、物理扭曲、拍摄视角多变等复杂干扰[5] - 现有基准未模拟真实环境的复杂性和多样性,导致模型在实际应用中表现存疑[5] WildDoc数据集的构建与特点 - WildDoc是首个真实世界场景文档理解的基准数据集,由字节跳动OCR团队联合华中科技大学打造[3] - 数据集包含超过12,000张手动拍摄的图片,覆盖环境、光照、视角、扭曲和拍摄效果等五个影响因素[3] - 数据采集过程包括场景多样化、基准对齐和多条件拍摄,确保覆盖多维度干扰因素[11] - 对图像中的文本、布局等关键信息进行人工验证,并通过一致性分数评估模型在不同条件下的稳定性[11] 实验结果与发现 - 主流MLLMs在WildDoc上性能显著下降,例如GPT-4o平均准确率下降35.3,ChartQA子集下降达56.4[12] - 开源模型Qwen2.5-VL-72B平均准确率70.6,为开源最佳,但仍低于原始基准约15%[12] - 闭源模型Doubao-1.5-pro表现最优(平均准确率73.7%),但一致性分数仅55.0[12] - 物理扭曲最具挑战性,导致模型性能下降最显著(如GPT-4o下降34.1-34.7)[13] - 非正面视角与图像质量对性能影响较大,但屏幕捕获图像因数据增强算法成熟,性能下降较小[13] - 大参数量模型在WildDoc上表现略优,但未完全克服真实场景挑战[13] 未来改进方向 - 数据增强:通过更多增强技术模拟真实世界条件,如变化的光照、阴影等[19] - 鲁棒特征学习:让模型学会提取对真实世界变化不敏感的特征[19] - 真实数据引入:收集更多真实世界文档图像,丰富训练数据集[19]