Workflow
人大、清华DeepAnalyze,让LLM化身数据科学家
机器之心·2025-10-30 16:52

产品概述 - 推出首个面向自主数据科学的agentic LLM——DeepAnalyze-8B,能够模拟数据科学家行为,在真实环境中主动编排、优化操作,完成复杂数据科学任务[2][5] - 该模型支持本地部署,可作为私有数据科学助手使用[7] - 产品所有资源包括论文、代码、模型、数据均已开源[5][8] 核心能力 - 自动化完成数据准备、数据分析、数据建模、数据可视化、数据洞察、报告生成等以数据为核心的任务[4] - 可在任意数量的结构化数据(数据库、CSV、Excel)、半结构化数据(JSON、XML、YAML)、非结构化数据(TXT、Markdown)中进行开放式深度研究,生成分析师级别的研究报告[4] - 具备自主编排和自适应优化操作的能力,能端到端地完成数据科学全流程[10] 技术突破 - 引入Curriculum-based Agentic Training方法,在真实环境中从单一任务到复合任务渐进式训练LLM,避免复杂任务上奖励信号为0导致的强化学习失效[13][14] - 采用Data-grounded Trajectory Synthesis技术,自动化合成500K数据科学的推理、环境交互数据,在庞大搜索空间中提供正确路径指导[13][14] - 解决了复杂场景下的奖励稀疏和轨迹稀缺问题,实现对需要多种能力的高复杂度任务的有效学习[25] 性能表现 - DeepAnalyze-8B在DataSciBench(端到端数据科学Benchmark)上取得59.91的Completion Rate和66.24的Success Rate,优于所有开源模型,与GPT-4o(66.31 Completion Rate,68.44 Success Rate)相媲美[12] - 在DSBench数据分析和数据建模任务上表现优于基于workflow的智能体[12] - 在面向数据的深度研究中取得最佳表现,能生成分析师级别的分析报告[18] - 在具体实验中,DeepAnalyze-8B取得90.63%的成功率,性能得分为39.41,成本为0美元,显著优于其他方法[16] 行业定位 - 推动基于LLM的数据科学系统从workflow-based agent范式转变到可训练的agentic LLM范式[6] - 作为一个基础模型,可以直接应用,或通过提示或监督微调进一步定制以适应特定场景[25] - 解决了现有方法仅支持单点任务、无法端到端完成数据科学全流程的局限性[9]