产品发布与性能表现 - 上海人工智能实验室发布新一代文档解析大模型MinerU2.5,该模型仅以12亿参数规模,在OmniDocBench、DocOCR-bench、Ocean-OCR等权威评测上全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型以及dots.ocr、MonkeyOCR、PP-StructureV3等专业文档解析工具[2] - MinerU2.5在OmniDocBench评测中整体解析能力得分90.67,显著高于第二名dots.ocr的88.41,在文本编辑距离、公式解析、表格解析和阅读顺序等核心指标上均取得最优成绩,其中文本编辑距离低至0.047,阅读顺序错误率仅0.044[5][6] - 模型在布局检测、表格识别、公式识别、文本识别等关键任务上取得全面突破,在复杂排版、复杂公式及复杂表格上性能显著提升,在普通样本上的解析精度达到媲美人工标注员的水平[7][10] 技术架构与效率优势 - MinerU2.5采用QwenVL2系列的原生分辨率视觉编码器(6.75亿参数)及5亿参数的语言解码器,模型总参数量接近12亿,通过将高分辨率文档图像下采样到1036×1036实现高效解析[11] - 配合vLLM参数优化及工程优化,MinerU2.5在消费级显卡RTX 4090(48G)上达到每秒1.7页的解析速度,远超其他大模型解析方案[11] - 科研团队设计了文档解析数据引擎,在预训练阶段保证文档多样性、元素多样性及中英文数量均衡,在微调阶段采用基于推理一致性的迭代挖掘策略提升复杂样本解析能力[8] 应用场景与功能升级 - MinerU2.5凭借高精度、多模态的文档理解与结构化输出能力,特别适合构建RAG知识库与大规模文档提取等实际应用场景[3] - 在线产品新增表格旋转识别、无线或少线表格解析、跨格式文档无损复制以及参考文献识别等功能,并对中文公式、复杂数学公式及嵌套表格的解析精度进行优化[17] - 导出的JSON文件保留页眉、页脚、页码、脚注及侧边文本等全部信息,为开发者提供更便捷的二次处理条件[18] 生态建设与产业适配 - OpenDataLab团队通过"自主可控+开放协同"双轨策略推动国产化适配,MinerU2.5已在国产千卡级平台上稳定高效运行,并与昇腾、沐曦、摩尔线程、寒武纪、海光等国产平台完成深度适配[20] - MinerU已开发出面向N8n、扣子、FastGP、BISHENG等主流Agent平台的插件,并为钉钉、Cherry Studio、Sider等知名AI工具提供接入与技术保障[20] - 技术成果将以开源方式共享,模型已在HuggingFace、ModelScope和GitHub等多平台上线,提供模型下载、源码及在线Demo[16][21]
十亿级参数,千亿级性能,上海AI Lab发布新一代文档解析大模型,复杂场景解析精度媲美人类专家
量子位·2025-09-29 18:44