Workflow
Chain - of - thought prompting
icon
搜索文档
Study: AI LLM Models Now Master Highest CFA Exam Level
Yahoo Finance· 2025-09-23 01:43
文章核心观点 - 一项最新研究表明领先的大型语言模型现已能够通过CFA三级考试包括其难度最高的论述题部分这标志着人工智能在复杂金融推理领域取得重大突破 [2][4] 研究背景与目的 - 研究由纽约大学斯特恩商学院与人工智能财富平台Goodfin共同进行旨在评估大型语言模型在金融等专业领域的能力 [3] - 研究标题为《大规模高级金融推理大型语言模型在CFA三级考试上的综合评估》对23个领先AI模型进行了基准测试 [4] 主要研究发现 - OpenAI的o4-mini模型在CFA三级模拟考试中取得79.1%的综合得分Gemini的2.5 Flash模型得分为77.3% [5] - 多数模型在选择题部分表现良好但仅有少数能在需要分析、综合与战略思维的论述题中表现出色 [5] - 通过使用思维链提示方法即要求模型逐步思考并给出推理过程能将论述题的准确率提升15个百分点 [8] 模型能力评估 - 研究表明当前基于推理的大型语言模型具备执行大量定量与批判性思维任务的能力例如能够思考问题并为回答提供推理过程 [6] - 在评估论述题时使用另一个大型语言模型作为评分者该AI评分者比人类评分者更为严格给出的总分更低 [7]