Xpert
搜索文档
马斯克转发字节Seed&哥大商学院新基准:大模型搞金融,连查个股价都能出错
搜狐财经· 2025-09-21 10:34
基准测试概况 - 字节跳动Seed团队联合哥伦比亚大学商学院推出首个完全开源的金融搜索与推理基准测试FinSearchComp,包含635个金融专家精心设计的问题 [1] - 基准测试覆盖全球和大中华两个市场,并在多个主流模型产品上进行了全面评测 [1] - 该基准发布后获得业界广泛讨论,包括马斯克的关注和转发 [3] 评测核心结果 - 在全球数据集上,表现最好的模型Grok 4 (web)准确率为68.9%,但仍落后人类专家6.1个百分点 [1] - 在大中华区数据集上,豆包(web)领先其他模型,但与人类专家88.3%的准确率相比,差距超过34个百分点 [1] - 所有模型的表现从T1到T3任务单调递减,证明基准有效测试了搜索和推理能力的复杂性 [11] 任务设计特点 - 基准设计了三类贴近分析师日常工作的任务,难度逐级递增 [7] - T1时效性数据获取任务要求获取每日或日内变化的数据,如最新股价、汇率,强调数据时效性搜索和多信息源判断 [7] - T2简单历史查询任务需要查找固定时间点的事实,关键挑战在于对齐报告惯例和确保单位货币一致性 [7] - T3复杂历史调查任务最具挑战性,要求进行多期聚合或综合分析,需要跨越长时间跨度检索数据并进行多步推理 [7] 数据质量保障 - 数据构建得到字节跳动Xpert平台支持,该平台汇聚了数千名经过严格筛选的行业专家 [9] - 项目动用了70位金融专家,均具有金融硕士以上学位,来自花旗、摩根大通、中信证券等知名机构 [9] - 所有答案均来自高度可靠渠道,包括官方披露、监管机构网站和专业数据库,并采用多源交叉验证方法 [9] - 数据集构建过程耗时约240小时专家工时,通过盲审机制进行多重验证 [10] 关键能力发现 - 搜索能力是关键,配备网络搜索功能的模型在三个任务上分别获得40.8、29.0和8.1个百分点的巨大提升 [12] - 没有搜索功能的模型在时效性任务上一律得分为0,因为它们无法检索当前金融数据 [12] - 金融插件价值显著,在元宝平台上使用金融插件的DeepSeek R1比官方网站版本表现提升31.9个百分点 [12] - 美国模型在全球数据集上领先,中国模型在大中华区数据集上表现更好,体现地域特征 [11] 行业应用潜力 - 金融分析是检验AI能力的绝佳试金石,涉及大量复杂的信息搜索和整合,要求时效性、精确性和专业判断 [6] - 美国约有37万金融专业人士,全球可能超过100万金融分析师每天执行类似的信息检索任务 [12] - 个人分析师每天执行10-30次简单历史查询,每次平均需要5-10分钟;复杂调查每次需要15-60分钟 [12] - 约有一半的信息检索活动仍然需要手动数据收集,AI准确完成这些任务可显著提升整体生产力 [13]