Workflow
情感分析
icon
搜索文档
量化研究系列报告之二十三:让情绪“有结构”:大模型如何挖掘研报新价值
华安证券· 2025-08-11 22:58
量化模型与构建方式 1. **模型名称**:DeepSeek-V3-671B - **模型构建思路**:依托DeepSeek大模型实现研报摘要的结构化情感分析,从黑箱评分转向可解释的评分体系,通过拆解摘要结构(业务发展、财务表现、其他因素)引入四维量化分析(类别识别、情绪倾向、出现顺序、字数占比)[4][5] - **模型具体构建过程**: 1. **输入处理**:清洗研报摘要文本,剔除盈利预测和风险提示部分[22] 2. **分类规则**:预定义10类研报要素(如战略布局、技术创新等),要求模型严格遵循类别、情绪(1/-1/0)、出现顺序、字数占比四要素输出JSON格式结果[45][46] 3. **权重分配**:跨类别文本按优先级拆分(公司行为>外部因素>财务表现),字数占比计算公式为: $$ \text{字数占比} = \frac{\text{类别字数}}{\text{摘要总字数}} $$ [47] 4. **批量调用**:支持15条摘要批量处理,输入格式为system提示+user摘要内容[65] - **模型评价**:输出格式符合率100%,结果稳定性优于R1版本,支持高效批量任务[63][65] 2. **模型名称**:研报情绪密度策略模型 - **模型构建思路**:基于情绪密度(利好字数占比)构建选股策略,重点捕捉"业绩超预期"和"盈利改善"等有效信号[5][6] - **模型具体构建过程**: 1. **信号提取**:计算每篇研报中各类别的利好密度(如盈利改善密度=正面情绪字数/总字数)[5] 2. **组合构建**:按月频或不定期调仓,选取利好密度最高的股票构建多头组合[26][27] 3. **非线性优化**:引入指数衰减加权调整近期研报权重[40] --- 量化因子与构建方式 1. **因子名称**:简单加权评分因子(score_sum) - **构建思路**:对研报中所有利好类别进行等权加总[6] - **具体构建过程**: 1. 单篇研报评分公式: $$ \text{score\_sum} = \sum_{i=1}^{n} (\text{情绪值}_i \times \text{字数占比}_i) $$ 2. 个股评分=近期所有相关研报评分的均值[35] 2. **因子名称**:篇幅加权评分因子(score_by_len) - **构建思路**:按类别字数占比加权情绪值,反映信息篇幅权重[6] - **具体构建过程**: $$ \text{score\_by\_len} = \sum_{i=1}^{n} \left( \text{情绪值}_i \times \frac{\text{类别字数}_i}{\sum \text{类别字数}} \right) $$ [36] 3. **因子名称**:类别重要性加权因子(score_by_cat) - **构建思路**:根据类别对股价的解释力(通过历史CAR回归确定)分配权重[37] - **具体构建过程**: 1. 计算每类情绪对20日累计超额收益(CAR)的回归系数[38] 2. 权重公式: $$ w_i = \frac{|\beta_i|}{\sum |\beta|} $$ 3. 加权评分: $$ \text{score\_by\_cat} = \sum_{i=1}^{n} (w_i \times \text{情绪值}_i) $$ 4. **因子名称**:复合因子(score_report_llm) - **构建思路**:等权合成上述四类因子,兼顾多样性与稳定性[6] - **具体构建过程**: $$ \text{score\_report\_llm} = \frac{1}{4} (\text{score\_sum} + \text{score\_by\_len} + \text{score\_by\_cat} + \text{score\_by\_LenCat}) $$ --- 模型回测效果 1. **复合因子(score_report_llm)**: - 年化收益12.8%,相对中证800超额13.5%[6] - 月胜率100%(2025年1-5月),最大回撤<4%[6] - 五分位收益单调性显著[47] 2. **情绪密度策略**: - 盈利改善密度组合年化超额18.7%(月频调仓)[26] - 业绩超预期密度组合年化超额21.3%(不定期调仓)[29] --- 因子回测效果 1. **score_sum因子**: - IC均值0.082,IR 1.52[35] - 多头组合年化超额9.4%[43] 2. **score_by_len因子**: - IC均值0.096,IR 1.78[36] - 多头组合年化超额11.2%[44] 3. **score_by_cat因子**: - IC均值0.105,IR 1.91[38] - 多头组合年化超额12.0%[45] 4. **score_by_LenCat因子**: - IC均值0.112,IR 2.03[39] - 多头组合年化超额13.1%[46] (注:所有测试窗口均为报告发布后20-40日,基准为中证800)[6][35]
股吧散户评论是股市的晴雨表吗?
东北证券· 2025-06-25 15:12
报告核心观点 - 基于东方财富网上证指数吧散户评论构建的指标与上证指数有同步走势关系,但不同年份关联不稳定 [2][116] - 散户情绪易被短期价格波动影响,情绪指标是价格波动结果,看多或看空观点是对当前价格反应 [3][116] - 以技术分析思路观察情绪指标,其突破阈值时市场走势会相应转变,可辅助判断市场后续走势 [3][111][117] 前言 - 互联网普及使投资者在评论区发表观点,可能影响交易决策,可通过自然语言处理分析评论信息 [10] - 采用 BERT 模型和情感词典方法识别评论情感,分析散户评论行为及价值 [11] 自然语言处理方法之 BERT 模型介绍 - 自然语言处理融合多学科,含理解和生成两方面,旨在实现人机有效沟通 [12] - 2018 年 BERT 模型问世改写局面,其是基于 Transformer 的双向预训练语言模型,表征基于所有层左右语境 [13][15] - BERT 技术原理是“双向预训练 + 任务特定微调”,预训练基于掩码语言模型与下一句预测任务 [18] - BERT 核心优势是通用性,学习到的语言表征可迁移到几乎所有 NLP 任务 [32] 基于投资者评论文本的情感分析 投资者文本数据的获取和预处理 - 东方财富网上证指数吧评论可刻画投资者情绪,对市场舆情判断有参考意义 [34] - 对评论进行筛选,保留近 500 万条评论文本数据,其长度、月度发帖等分布与散户评论行为认知一致 [37] 基于 BERT 模型的评论文本分析 - 用 BERT 模型对评论进行情感标注,分为看多、看空和中性三类 [48] - 评估模型分类效果,BERT 模型在训练集和测试集上有一定准确度 [54] - 情绪得分多数为负值,与行情同步,与指数涨跌幅、成交额相关性随机不稳定 [67] 基于情感词典的评论文本分析 - 基于情感词典的文本分析通过匹配词汇计算得分判断文本情感,金融情感词典更适配金融文本 [69] - 采用姚加权等人的金融情感词典,结合正式和非正式用语词典分析评论 [72] - 基于情感词典的评论情感标签分布与 BERT 模型结果相近,看空评论多于看多评论 [79] - 定义情绪分歧度,其反映多空情绪强弱,与市场走势有关,分歧度高可能预示市场变化 [82][84] - 看空情绪指标与上证指数走势同步,无显著领先性,上下行关系不稳定 [91] - 看空情绪指标边际变化与当天上证指数涨跌幅负相关,与次日无显著相关性 [95] - 当日看空情绪变化与次日上证指数成交额负相关,相关性随时间推移减弱 [107] - 从技术分析角度,情绪指标突破阈值时可预示市场走势变化 [111][112] 总结 - 分析股吧评论特征及价值,考察相关指标与上证指数关系,走势关系同步但不稳定 [116] - 散户情绪受价格波动影响,评论是情绪宣泄,情绪指标可辅助判断市场走势 [116][117] 参考文献 - 引用姚加权等人关于金融情绪词典的论文和 Devlin 等人关于 BERT 模型的论文 [118]