FDABench

搜索文档
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
量子位· 2025-09-10 16:01
FDABench团队 投稿 量子位 | 公众号 QbitAI 数据智能体到底好不好用?测评一下就知道了! 南洋理工大学、新加坡国立大学携手华为 开源 推出 首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试 FDABench 。 该基准横跨50+数据领域、设置了多种难度等级和任务类型,还独创了 Agent-Expert协作框架 ,确保测试用例质量和数据一致性,同时支 持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。 团队使用FDABench对各种数据智能体系统进行了评估,发现每个系统在响应质量、准确性、延迟和token成本方面都表现出独特的优势。 下面详细来看。 将 数据库、 PDF、视频、音频异构数据源一网打尽 面对数据驱动决策的需求日益增长,这催生了对能够整合结构化和非结构化数据进行分析的数据智能体的迫切需求。 △ Data Agent 样例 为应对这些挑战,团队提出了 FDABench ,这是首个专门为评估多源数据分析场景中的智能体而设计的数据智能体基准。 首先,由于难以设计出能评估智能体在多源分析任务中各项能力的测试用例,全面的数据智能 ...