华尔街彻夜难眠,Gemini 3屠榜金融“最难考试”,AI砸了“金饭碗”?
36氪·2025-12-15 19:58

AI模型在CFA考试中的表现 - 当前领先的AI推理模型已能轻松通过CFA全部三个级别的考试,部分科目成绩接近满分 [1][3][15] - 在一级考试(多选题)中,Gemini 3.0 Pro创造了97.6%的历史最高准确率 [3][22][23] - 在二级考试(案例选择题)中,GPT-5以94.3%的准确率领先 [3][22][24] - 在三级考试中,Gemini 2.5 Pro在选择题部分取得86.4%的最高分,而Gemini 3.0 Pro在问答题部分达到92.0%的优异成绩 [3][24][25] - 研究测试了包含980道题目的模拟题库,涵盖CFA三个等级 [16] - 与2023年相比,AI能力实现巨大飞跃,当时最强模型也无法通过三级考试的论述题 [7][27] 主要参与模型及其排名 - 根据测试排名,Gemini 3.0 Pro位列第一,在各级考试中均表现优异 [2][21] - GPT-5、Gemini 2.5 Pro、Grok 4、Claude Opus 4.1和DeepSeek-V3.1也均通过了所有级别考核 [2][21] - 较早的模型如ChatGPT和GPT-4在部分级别考试中未能通过 [2][22] - 研究团队对23个大语言模型进行了测试,以评估其处理专业金融分析推理的能力 [10] 技术方法与评估细节 - 模型在运用「思维链」(chain-of-thought)提示词技术后,成功通关三级考试 [12] - 对于开放式问答题的评分,研究使用了o4-mini模型进行自动化批改,但承认这可能引入测量误差和「篇幅偏见」 [25] - 测试沿用了CFA官方的历史合格标准:一级要求总分不低于70%,二级不低于60%,三级选择题和论述题平均得分率至少达到63% [25] - 三级考试核心考察投资组合管理和财富规划,涉及资产配置、衍生品与风险管理等多个主题 [10][11] 行业影响与专家观点 - 业内专家指出,AI推理模型的专业能力已超越初级至中级金融分析师的要求,未来可能达到资深分析师水准 [26] - 有观点认为,AI擅长处理界定清晰的知识体系和标准化考试,但通过考试不等于能胜任金融分析师的日常琐碎工作和复杂决策 [28][29] - 模型在「道德与职业标准」类题目上表现相对较弱,在二级考试的相关题目中,最强模型也有17%到21%的相对错误率 [24][28] - 技术被视为工具,如同历史上从计算器到Python的进步,关键在于在合理边界内利用AI提升效率,将人力解放至更具战略性的工作中 [34][37] - 卓越的投资业绩依赖于捕捉市场忽视的信息和批判性思考,这超出了标准化考试的范围,因此AI短期内无法完全取代投资专家 [38]