华尔街彻夜难眠，Gemini 3屠榜金融“最难考试”，AI砸了“金饭碗”？

AI模型在CFA考试中的表现 - 当前领先的AI推理模型已能轻松通过CFA全部三个级别的考试，部分科目成绩接近满分 [1][3][15] - 在一级考试（多选题）中，Gemini 3.0 Pro创造了97.6%的历史最高准确率 [3][22][23] - 在二级考试（案例选择题）中，GPT-5以94.3%的准确率领先 [3][22][24] - 在三级考试中，Gemini 2.5 Pro在选择题部分取得86.4%的最高分，而Gemini 3.0 Pro在问答题部分达到92.0%的优异成绩 [3][24][25] - 研究测试了包含980道题目的模拟题库，涵盖CFA三个等级 [16] - 与2023年相比，AI能力实现巨大飞跃，当时最强模型也无法通过三级考试的论述题 [7][27] 主要参与模型及其排名 - 根据测试排名，Gemini 3.0 Pro位列第一，在各级考试中均表现优异 [2][21] - GPT-5、Gemini 2.5 Pro、Grok 4、Claude Opus 4.1和DeepSeek-V3.1也均通过了所有级别考核 [2][21] - 较早的模型如ChatGPT和GPT-4在部分级别考试中未能通过 [2][22] - 研究团队对23个大语言模型进行了测试，以评估其处理专业金融分析推理的能力 [10] 技术方法与评估细节 - 模型在运用「思维链」（chain-of-thought）提示词技术后，成功通关三级考试 [12] - 对于开放式问答题的评分，研究使用了o4-mini模型进行自动化批改，但承认这可能引入测量误差和「篇幅偏见」 [25] - 测试沿用了CFA官方的历史合格标准：一级要求总分不低于70%，二级不低于60%，三级选择题和论述题平均得分率至少达到63% [25] - 三级考试核心考察投资组合管理和财富规划，涉及资产配置、衍生品与风险管理等多个主题 [10][11] 行业影响与专家观点 - 业内专家指出，AI推理模型的专业能力已超越初级至中级金融分析师的要求，未来可能达到资深分析师水准 [26] - 有观点认为，AI擅长处理界定清晰的知识体系和标准化考试，但通过考试不等于能胜任金融分析师的日常琐碎工作和复杂决策 [28][29] - 模型在「道德与职业标准」类题目上表现相对较弱，在二级考试的相关题目中，最强模型也有17%到21%的相对错误率 [24][28] - 技术被视为工具，如同历史上从计算器到Python的进步，关键在于在合理边界内利用AI提升效率，将人力解放至更具战略性的工作中 [34][37] - 卓越的投资业绩依赖于捕捉市场忽视的信息和批判性思考，这超出了标准化考试的范围，因此AI短期内无法完全取代投资专家 [38]