Workflow
美联储:全面召回?大型语言模型的宏观经济知识评价(英文版)
搜狐财经·2025-07-08 10:02

大型语言模型宏观经济知识评估 - 研究聚焦Claude Sonnet 3 5模型对失业率 CPI等宏观经济变量的回忆能力 其中对二战以来失业率和CPI季度值的回忆较准确 但对实际GDP增长和工业生产增长等波动性较大的数据表现较差 [11] - 模型存在将GDP首次发布值与后续修订值混合的问题 这种跨数据版本的平滑现象阻碍其模拟实时预测和准确回顾经济状况 [14] - 即使被指示忽略未来信息 模型在构建特定日期估算时仍受未来参考期值影响 对历史分析和实时预测模拟构成挑战 [15] 数据发布日期回忆表现 - 模型能部分准确回忆历史数据发布日期 但存在几天误差 且对提示细节敏感 调整提示会减少某类误差但增加另一类误差 [16] - 综合主要经济指标来看 约20 2%的日子模型会错误认为某些重要数据已发布 限制了其在历史分析和实时预测中的可靠性 [16] - 模型预测表现与专业预测者调查相当甚至略好 但前瞻偏差问题使其预测可能受训练集中滞后数据影响 [16] 模型测试方法论 - 测试采用Anthropic Claude Sonnet 3 5模型 通过AWS Bedrock平台访问 模型无互联网搜索功能 仅依赖提示信息 [27] - 查询设计要求模型逐步推理并最终输出答案 通过次级"总结器"模型提取数值估计 经正则表达式解析 [28][29] - 为降低随机性影响 每个查询重复多次并取平均值 温度参数设为1 测试显示其对GDP估计结果影响有限 [35][36] 宏观经济变量回忆测试结果 - 模型对CPI通胀和失业率的回忆接近真实值 仅1990年前低通胀时期存在高估偏差 置信区间狭窄显示响应稳定性高 [44] - 对实际GDP增长和工业生产的回忆显著遗漏高频波动 但能捕捉商业周期变化 2020年疫情期间数据未纳入分析 [45] - 1990-2019年期间 CPI和失业率回忆精确度显著高于GDP和工业生产 后者高频波动被系统性忽略 [46]