Workflow
上交、清华、微软、上海AI Lab等联合发布数据分析智能体综述,LLM化身数据分析师,让数据自己「说话」
机器之心·2025-10-27 18:40

行业技术演进背景 - 传统数据分析方法依赖人工编写SQL、Python脚本及手动解读数据,存在耦合度高、扩展性差的问题,难以应对动态多模态的复杂数据[2] - 大语言模型与智能体的出现将数据分析从“规则执行”推向“语义理解”,使机器能够解读数据内在逻辑与关系,灵活完成查询、建模与报告生成等多样化任务[2] - 研究团队总结出LLM/Agent技术在数据分析领域的核心演进方向,共同指向让数据分析从“规则系统”迈向“智能体系统”的目标[7] 技术综述核心内容 - 该综述系统回顾了大语言模型在数据分析领域的整体演进,提出了构建“通用数据分析智能体”的新范式[2][11] - 论文重点讨论结构化、半结构化、非结构化及异构数据上的关键技术与演化趋势[4] - 不同于以往聚焦单一任务或模态的研究,该综述首次从全模态与全流程视角系统梳理了LLM/Agent在数据分析领域的整体格局[11] 五大核心演进方向 - 从字面理解转向语义推理:模型能洞察语义、推理逻辑,真正“理解数据”而非只“看数据”[10] - 从封闭工具转向自由协作:模型能调用外部API与知识库,与各类工具协同完成复杂任务[10] - 从封闭数据转向开放域分析:针对无结构约束的数据进行分析,摆脱原有工具限制[10] - 从静态工作流转向动态生成:智能体可自动构建分析流程与管道,使数据处理更高效灵活[10] - 从人工Agent框架转向自动生成框架:智能体可智能构建为特定工作服务的智能体,更灵活实现Agent工作流[10] 结构化数据分析技术 - 关系型数据分析正由NL2SQL向多样化的NL2Code、ModelQA过渡,研究方向包括语义对齐与模式链接、多步分解与检索增强推理、端到端表格问答[9] - 图数据分析以NL2GQL为代表,研究重点在图查询生成、语义级图推理与代理式操作,逐步实现从代码级到语义级的自动理解与执行[9] 半结构化与非结构化数据分析技术 - 半结构化数据的标记语言理解技术路线从模板+规则驱动向基于LLM的数据抽取与查询转变,强调树结构建模、层级编码、工具增强等[12] - 非结构化文档理解从OCR模板式向VLM转变,任务包括版面识别、RAG检索问答、摘要生成与多文档推理[12] - 图表理解将图像解析与自然语言推理结合,支持描述生成、问答与可视化推理[12] 异构数据与未来挑战 - 异构数据分析涉及跨模态整合多源数据湖,支撑统一语义查询与多模态推理,主要子任务包括模态对齐、自然语言检索接口、异构分析智能体[12] - 该领域未来挑战集中在可扩展性、评估体系与实际落地等方面,旨在推动通用数据分析智能体的发展与应用[4][11]