数据准备 - 财报，业绩电话会，研报，新闻

数据准备

搜索文档

机器之心· 2026-02-08 18:37

文章核心观点 - 大语言模型正在推动数据准备从“规则驱动”向“语义驱动”的范式转变，有望成为下一代数据管道的“智能语义中枢”[2][6][8] 数据准备的传统困境与LLM带来的变革 - 传统数据准备高度依赖人工规则与专家知识，存在跨系统表结构不一致、数据缺少语义描述等问题，占用了数据团队近80%的时间与精力[2] - 传统方法存在三大根本局限：高度依赖人工与专家知识、对任务语义的感知能力有限、在不同任务与数据模态间泛化能力差[2] - LLM的引入推动流程从“规则驱动”向“语义驱动”转变，模型尝试理解数据背后的含义，并据此完成检测、修复、对齐和补充等操作[8] LLM增强的数据准备核心任务框架 - 研究构建了以任务为中心的分类框架，将LLM增强的数据准备过程拆分为三大核心环节：数据清洗、数据集成、数据增强[9][10] - **数据清洗**：涵盖错误检测、格式标准化、异常修复、缺失值填补等任务[10] - **数据集成**：涵盖实体匹配、模式匹配、跨源对齐与冲突消解等任务[10] - **数据增强**：涵盖列类型识别、语义标注、表级与库级画像构建等任务[10] LLM增强数据准备的主要技术路径 - 研究将现有技术路径归纳为三类，与传统单一方法形成鲜明对比[12] - **基于Prompt的方法**：通过结构化提示和上下文示例直接引导模型完成任务，强调灵活性与低开发成本[12] - **检索增强与混合方法**：结合检索增强生成、模型调优、小型模型或传统规则系统，在成本、规模与稳定性之间寻求平衡[12] - **智能体编排方法**：让LLM作为协调中枢，调用外部工具和子模型，逐步构建复杂的数据处理工作流，探索自动化与自主决策的边界[12] 代表性工作与系统实践 - 在**数据清洗**场景中，CleanAgent引入了能够自主规划的智能体架构，通过调用Python库等外部工具动态构建清洗工作流[15] - 在**数据集成**领域，Jellyfish探索了“大模型教小模型”的蒸馏范式，利用GPT-4的推理轨迹微调轻量级模型，显著降低了大规模匹配的成本[15] - 在**数据增强**方向，Pneuma结合了RAG技术，通过检索数据湖中的相关表格与文档，为原始数据补充缺失的语义上下文与元数据[15] 工程实践观察与选型指南 - **基于Prompt的方法**适合小规模、高复杂度任务，如高价值表格的语义修复、复杂实体歧义消解，但在大规模场景中成本和一致性难以控制[19] - **RAG与混合系统**成为主流工程选择，通过检索、规则系统或轻量模型分担高频、低难度任务，让LLM专注于“难例”和核心语义决策，实现更高的整体性价比[19] - **智能体路线**仍处于探索阶段，多步工具调用在复杂工作流中展现出潜力，但其稳定性、调试成本和结果可评估性仍是当前的主要瓶颈[19] - 工程可落地性优先，在真实系统中，吞吐量、延迟、成本控制和结果可回溯性往往比单次任务的绝对准确率更为关键[24] - 混合架构是主流方向，短期内LLM更可能作为“语义中枢”嵌入传统数据管道，与规则系统、检索引擎和轻量模型形成协同的混合架构[24] 评估体系与数据集现状 - 论文整理了用于评估LLM数据准备能力的代表性数据集与基准，为工程团队和研究者提供“可复现实验地图”[18] - **数据清洗**常用数据集包括Hospital（1,000行）和Flights（2,377行），用于评估模型在格式错误修复、值标准化等任务中的稳定性与准确性[20][24] - **数据集成**在实体匹配任务中，广泛使用WDC Products（40,500对）和Amazon-Google Products（1,300对）等电商类数据集[20][24] - **数据增强**在表语义标注任务中，常基于OpenWikiTable（6,602张表）和Public BI Benchmark（203张表）等表格语义数据集[20][24] - 当前多数基准仍以中小规模表格和结构化数据为主，对于企业级数据湖、日志流和多模态数据场景的覆盖仍然有限[21] - 评估体系是当前瓶颈，不同研究采用的数据集、指标和任务定义差异较大，缺乏统一、可复现的评估标准，严重制约了技术的横向比较与工程选型[24]