Workflow
金融AI能力评估
icon
搜索文档
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
量子位· 2025-09-21 10:11
基准测试概述 - 字节跳动Seed团队与哥伦比亚大学商学院联合推出首个完全开源的金融搜索与推理基准测试FinSearchComp [1] - 基准包含635个由金融专家精心设计的问题,覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测 [1] 评测核心结果 - 全球数据集上表现最好的模型Grok 4 (web)准确率为68.9%,但仍落后人类专家6.1个百分点 [2] - 大中华区数据集上豆包(web)领先其他模型,但与人类专家88.3%的准确率相比,差距超过34个百分点 [2] - 结果表明即使最先进的AI系统在处理复杂金融分析任务时仍有很大提升空间 [3] 任务设计框架 - 设计三类递进式难度任务以反映金融分析工作流程的实际复杂性 [9][11] - T1时效性数据获取任务:要求获取每日或日内变化的数据,如最新股价、汇率,强调数据时效性搜索和多信息源判断 [10] - T2简单历史查询任务:需要查找固定时间点的事实,关键挑战在于对齐报告惯例并确保单位和货币一致性 [10] - T3复杂历史调查任务:要求进行多期聚合或综合分析,需要跨越长时间跨度检索数据并进行多步推理 [10] 数据质量保障 - 构建过程得到字节跳动Xpert平台支持,汇聚70位金融专家提供专业支持 [13] - 所有答案均来自高度可靠渠道,包括上市公司官方披露、政府和监管机构网站以及专业金融数据库 [13] - 采用多源交叉验证方法确保数据可靠性,数据集构建过程耗时约240小时专家工时 [13][14] 关键评测发现 - 所有模型表现从T1到T3单调递减,证明基准确实测试越来越复杂的搜索和推理能力 [16] - 配备网络搜索功能的模型在三个任务上分别获得40.8、29.0和8.1个百分点的巨大提升 [16] - 美国模型在全球数据集上领先,中国模型在大中华区数据集上表现更好,体现地域特征 [16] - 金融插件价值显著,在元宝平台使用金融插件的DeepSeek R1比官方网站版本表现提升31.9个百分点 [18] 行业意义与应用前景 - 金融分析涉及大量复杂信息搜索和整合,要求时效性、精确性和跨源信息整合 [8] - 美国约有37万金融专业人士,全球可能超过100万金融分析师每天执行信息检索任务 [19] - 个人分析师每天执行10-30次简单历史查询,每次平均需要5-10分钟,复杂历史调查每次需要15-60分钟 [19] - 约有一半的信息检索活动仍需手动数据收集,AI准确完成这些任务可显著提升整体生产力 [19]