FDABench - 财报，业绩电话会，研报，新闻

FDABench

搜索文档

首个Data Agent基准测试来了！2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

量子位· 2025-09-10 16:01

文章核心观点 - 南洋理工大学、新加坡国立大学与华为合作推出首个针对数据智能体异构混合数据分析的综合性基准测试FDABench [1] - 该基准旨在解决数据智能体领域缺乏全面评估标准、测试用例构建成本高以及现有基准适应性有限三大关键挑战 [11][12] - FDABench可帮助用户根据具体需求量化评估不同数据智能体系统在响应质量、准确性、延迟和成本等方面的表现，从而选择最合适的系统 [3][24][25] FDABench基准测试框架特点 - 基准规模覆盖2007个不同测试任务，横跨金融、电商等50多个数据领域，设置简单、中等、难三种难度等级 [13] - 测试数据源包括结构化数据库、PDF文档、视频、音频等异构数据源，任务类型分为单选题、多选题和写报告三种 [13][14] - 独创Agent-Expert协作框架，支持Data Agent、RAG、语义算子以及规划、工具使用、反思、多智能体四种典型工作流模式 [1][17] - 基准规模达2007个任务，远超同类基准如AgentBoard(466)、GAIA(812)、MINT(586)等 [14] 数据智能体系统评估结果 - 测试涵盖通用数据分析系统（如DAgent、Taiji）、语义理解系统（如LOTUS）和检索增强系统（如GraphRAG）等多种类型 [19][20] - 评估指标包括精确匹配率（EX_SC/EX_MC）、成功率（SR）、成本（Cost）、外部调用次数（Ext.Call）和延迟（Latency） [19][21] - 不同系统表现各异，例如在简单难度下，AOP系统精确匹配率达0.51，而NaiveRAG为0.33 [19][21] 数据智能体架构性能分析 - 复杂架构如多智能体和反思型在准确性上显著优于简单架构，但计算成本成倍增加，资源消耗可达6-20倍 [23] - 不同架构计算资源分配差异明显：反思架构将26-29%计算用于重试机制，规划架构将32-35%用于生成阶段 [22][23] - 模型与架构存在适配性，某些大规模预训练的非思考模型在复杂架构下表现突出，而部分思考模型反而出现"双重推理惩罚"现象 [23] 行业应用价值 - 基准测试显示数据智能体系统存在明显权衡：快速系统处理复杂任务能力有限，准确系统则成本较高且延迟较大 [24] - FDABench为行业提供了量化工具，可根据任务场景选择合适架构，实现计算资源的优化配置 [23][25] - 该基准支持异构数据源整合分析，满足数据驱动决策日益增长的需求，具有广泛行业应用前景 [5]