Workflow
面向数据的轨迹合成
icon
搜索文档
LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据
量子位· 2025-11-01 11:59
产品核心功能 - 产品为面向数据科学的Agentic LLM,无需人工设计的工作流,仅凭一个大语言模型即可自主完成多种复杂数据任务[5] - 支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察等数据任务[3] - 可在非结构化数据、半结构化数据、结构化数据中进行开放式深度研究,并生成研究报告[3] - 产品在真实环境中自主编排和优化各种操作,以完成复杂的数据科学任务[6] 技术方法与创新 - 提出课程学习式Agentic训练范式,模拟人类数据科学家学习路径,让模型在真实环境中从简单到复杂、从单一任务到综合任务逐步进阶[10][12] - 训练过程包括两大阶段:单能力微调(训练基础能力)和多能力Agentic训练(在真实任务环境中自主完成复杂任务)[13] - 提出面向数据的轨迹合成框架,能够自动合成50万条数据科学推理与环境交互数据,为模型在庞大搜索空间中提供正确路径的示范和引导[10][14] - 数据合成包含推理轨迹合成(构建带有完整推理路径的训练数据)和交互轨迹合成(从结构化数据源中自动合成数据科学交互轨迹)[15] 市场表现与影响力 - 产品论文、代码、模型、数据均已开源,在GitHub上收获1.1K+星标[6] - 在数据研究报告生成任务中,无论是内容深度还是报告结构,产品表现均显著优于现有闭源大语言模型[16] - 团队开源的多语言大模型、多模态大模型、数据科学大模型在GitHub社区累计获得5000+星标[24] 研发团队背景 - 研发团队为中国人民大学信息学院、数据工程与知识工程教育部重点实验室设立的科研团队RUC-DataLab[30] - 团队负责人为中国人民大学教授、博士生导师范举,系国家级青年人才,中国计算机学会数据库专委会、大数据专委会执行委员[28][30] - 团队专注于数据系统与人工智能交叉领域,研究方向包括数据库系统智能化、数据库技术赋能AI系统、数智融合的新型数据科学系统[30] - 团队相关研究成果在计算机领域国际顶级期刊/会议发表论文60余篇,并获得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award等奖励[29]