Workflow
DLU(Document Language Understanding)
icon
搜索文档
OpenDataLab将与钉钉打造免费全能的文档解析神器
格隆汇· 2025-09-04 19:28
行业背景与挑战 - 高质量数据是AI大模型训练与应用的基础 但企业面临大模型难以解析非结构化数据的困境[2] 技术解决方案 - OpenDataLab与钉钉基于MinerU引擎联合推出文档解析工具DLU 旨在破解企业AI-Ready数据难题[2] - MinerU是OpenDataLab推出的智能文档解析引擎 在GitHub累计获得超4万星标[2] - MinerU2.0实现解析速度和精度双提升 以0.98B参数达成比肩72B主流大模型的性能[3] - DLU具备广泛文件格式兼容性 支持Office文档/PDF/Markdown/代码文件及钉钉自有格式[3] - DLU支持提取纯文本内容 精准解析图表/公式/插图/化学分子式等复杂视觉元素[3] - DLU可将非结构化数据转换为适合大模型训练的高质量语料[3] 合作方技术实力 - 上海AI实验室OpenDataLab平台拥有7700余个开源精标数据集 为超10万用户提供200余万次数据服务[3] - 钉钉文档和AI表格已深度集成MinerU能力 并通过开放平台向生态开发者开放文档解析功能[3] 未来发展计划 - DLU将于近期开源 深度融入办公协同生态[4] - 支持用户在同一平台完成文档创建/解析提取/知识库管理/数据标注到定制化模型训练的全流程闭环[4] - 目标打造"数据工具中的PyTorch" 助力企业实现AI-Ready数据自由[4] - 钉钉正积极构建AI新生态 为行业数字化转型与智能化升级提供支撑[4]