Workflow
人工智能 vs 人类_如何使用大语言模型(LLMs)-AI vs Human_ How to Use LLMs_
2025-09-01 00:21

行业与公司 - 行业聚焦于金融研究领域 涉及人工智能(AI)尤其是大型语言模型(LLMs)在投资分析和行业研究中的应用 [1][2][13] - 公司未具体命名 但研究基于Bernstein的行业分析框架 涵盖多领域AI部署案例(如医疗诊断、IT帮助台) [2][26][33] 核心观点与论据 - AI部署的局限性:金融研究依赖定制化数据("walled data")和定性判断 AI无法替代人类构建端到端行业模型或公司模型 但可自动化信息收集与合成 [3][4] - 提示工程(Prompt Engineering)的关键作用: - 微小提示变化(如空格、礼貌用语)可导致5%-9%的答案差异 [7][20][22] - 结构化提示(如Chain of Thought)将医疗诊断一致性从50.6%提升至63% [23][25] - 信息过载("prompt bloat")会降低效果约8% [7] - 人机协作效能: - 专家介入后 AI在信息合成任务中表现超越人类(如收益电话会议总结) [8][13][43] - 但论点生成(thesis generation)仍弱于人类 研究深度不足 [8][10][53] - 行业应用差异: - 标准化任务(如IT帮助台)AI可独立处理 SelfScore基准达28.1-29.4(人类为23.1) [33][35][36] - 复杂领域(如金融分析、医疗诊断)需人机结合 专家提示使GPT-4性能超越人类标注者(F1分数0.886 vs. 人类0.838) [26][29] 其他重要内容 - 数据敏感性:新兴市场或新兴行业因公开数据稀缺 AI应用挑战最大 [4] - 时间成本:AI响应需大量时间精炼提示 边际收益递减 [10][48][54] - 模型局限性: - AI无法生成财务模型(仅输出硬编码数值) [53] - 横向LLMs(如GPT-4)在专家提示下可媲美垂直专业模型(如PubMedBERT) [29] - 未来趋势:AI将在明确流程任务中取代人类 而模糊复杂任务需人机共生 [11][12][81] 性能提升案例 - 收益电话分析:提示优化后平均分从3.8升至4.3(满分5) [43][44] - 管理决策评估:提供明确框架后评分从3.5跃至4.1 [56][58] - 行业趋势分析:专家提示将得分从3.2提升至3.9 [46][48]