还在为AI数据发愁？张文涛和鄂维南院士团队推出Data-centric AI系统

大模型数据治理现状 - 大模型发展由大型科技公司主导，其优势在于规模庞大且高质量的数据资源，但原始数据及处理工具通常不公开[1] - 学术界在大模型数据准备方面面临挑战，训练数据清洗与构建缺乏系统化工具支持，现有工具如Hadoop和Spark尚未有效集成最新大语言模型智能算子[1] DataFlow系统概述 - 张文涛和鄂维南院士团队提出以数据为中心的AI系统DataFlow，实现100余个基于规则、本地大模型或大模型API的数据治理算子[2] - 系统构建8条预设数据处理流水线，支持大规模嘈杂数据清洗、强推理数据合成、RAG数据提取等主流治理需求[2] - 全面支持文本模态数据治理，可提升大语言模型在通用领域推理能力和特定领域性能，多模态版本正在开发中[4] DataFlow技术架构 - 框架分为算子层和流水线层，通过数据管理类实现读写管理，大模型后端类支持算子调用大模型[7] - 支持两种大模型后端：本地GPU部署推理服务和使用API请求服务商[11] - 设计Agent for DataFlow模块，实现自动编排算子、编写新算子和解决数据分析任务[7] 数据处理流水线功能 - 通用文本数据处理流水线通过去重、改写和过滤算子实现删除冗余字符、提取有效信息[13] - 强推理数据合成流水线支持问题处理、答案生成与处理、数据去重三方面算子[18][19][20] - Text2SQL流水线包含数据过滤、难度分类、Schema处理、知识生成等步骤[23][26] - Agentic RAG流程包含片段遴选、构造问答对、质量评估等算子[27] 系统应用效果 - 通用文本数据处理后数据在多个评估维度有提升[14] - 合成数据训练模型在Spider和Bird基准测试中提升3-10.1%[25] - Agent自动化流程包含Planning Agent、Task Dispatcher等6个组件[30] 部署与使用 - 已部署在PyPi，支持pip install一键安装，采用PyTorch风格算子组织方式[31] - 提供代码和前端两种使用方式，前端支持无代码拖拽式Pipeline搭建[34] - 开源项目包含详细文档和教程，支持社区贡献完善[32][36]