Workflow
Universal Data Lake
icon
搜索文档
挖掘“非结构化”数据价值的5种方法
36氪· 2025-12-09 12:06
行业核心观点 - 现代数据管理正面临根本性转变,企业过去十年仅专注于占数据总量10%的“干净”结构化数据,而忽视了占比高达90%的非结构化数据(如PDF、电子邮件、图像),这些数据被视为企业的“暗物质” [1] - 到2025/2026年,数据平台的价值将取决于其能否无缝连接SQL表与PDF等非结构化文档,仅擅长SQL的技能将变得过时,无法满足业务需求(如CEO直接查询PDF合同与SQL收入数据的关联)[1][3] - 行业未来的竞争焦点不在于SQL与NoSQL之争,而在于如何快速弥合结构化与非结构化数据之间的鸿沟 [15] 技术架构与集成挑战 - 当前根本性脱节在于缺乏原生、高性能的连接方式,无法将向量数据库的相似性搜索与关系数据库的精确逻辑(如LEFT JOIN语义)有效结合,导致精确映射PDF内容到数据库交易ID成为一场噩梦 [4] - 行业趋势是推动“人工智能函数”在数据仓库内部兴起,将逻辑模型引入数据本身,而非将数据移至向量数据库,理想架构应支持在主数据仓库中直接运行如`SELECT extract_contract_value(pdf_blob) FROM documents`的SQL推理查询 [4] - 专家建议停止构建独立的非结构化数据平台,寻求能在数据仓库内进行SQL推理的架构,否则应考虑迁移 [4] 成本管理与模型优化 - 处理非结构化数据的成本问题凸显,“代币税”成为新的云账单冲击,盲目使用多模态大模型(如GPT-4o、Gemini 3 Pro)进行数字化提取将造成巨大经济损失 [5] - 统计数据显示,若不进行优化,处理1 PB的非结构化文本以进行检索增强生成(RAG)可能产生高达15万美元的API费用 [6] - 解决方案是采用“模型路由”策略,使用廉价的小型语言模型(SLM)或专用模型(如BERT)完成90%的提取工作(OCR、分类、实体提取),仅在复杂推理任务时调用昂贵的大模型,以显著优化成本 [6] 数据质量与解析瓶颈 - 非结构化数据处理的主要瓶颈往往在于数据解析而非模型本身,低质量的PDF解析器(如打乱文本、合并列、忽略脚注)会导致“输入垃圾,输出幻觉”,使RAG管道失败 [8] - 行业发展趋势是从启发式解析器(如PyPDF2)转向基于视觉语言模型的多模态解析器,通过“查看”文档截图理解布局后再读取文本,以提升解析质量 [8] - 专家建议大力投资数据摄取层,认为更好的解析器带来的投资回报率比更好的大语言模型高出10倍 [9] 数据治理与检索策略 - 在监管严格行业,仅依赖概率性的向量搜索存在风险,需引入确定性的元数据作为锚点以保障数据可用性与合规性 [10] - 最成功的数据团队会在文本嵌入向量存储前,使用代理程序为其添加结构化属性(如客户ID、日期、地区)作为元数据 [10] - 专家建议检索策略切勿仅依赖语义搜索,而应采用混合搜索,即结合向量相似性与SQL过滤,并确保每条非结构化数据都包含至少3-5个结构化元数据字段 [11] 数据资产化与平台演进 - 非结构化文档(如PDF合同)正从“数据块”转变为“数据产品”容器,内含义务清单、付款计划等可查询数据资产,数据工程师的工作是将其分解为可用资产 [12] - 行业正朝着“通用数据湖”迈进,得益于Apache Iceberg等开放格式,图像、视频、文本得以与表格并存,并由单一目录统一管理 [12] - 专家建议审核数据目录,确保搜索“第三季度财务数据”等查询能返回PDF报告而不仅仅是表格,以验证目录对非结构化数据的支持能力 [13]