Workflow
量化研究系列报告之二十三:让情绪“有结构”:大模型如何挖掘研报新价值
华安证券·2025-08-11 22:58

量化模型与构建方式 1. 模型名称:DeepSeek-V3-671B - 模型构建思路:依托DeepSeek大模型实现研报摘要的结构化情感分析,从黑箱评分转向可解释的评分体系,通过拆解摘要结构(业务发展、财务表现、其他因素)引入四维量化分析(类别识别、情绪倾向、出现顺序、字数占比)[4][5] - 模型具体构建过程: 1. 输入处理:清洗研报摘要文本,剔除盈利预测和风险提示部分[22] 2. 分类规则:预定义10类研报要素(如战略布局、技术创新等),要求模型严格遵循类别、情绪(1/-1/0)、出现顺序、字数占比四要素输出JSON格式结果[45][46] 3. 权重分配:跨类别文本按优先级拆分(公司行为>外部因素>财务表现),字数占比计算公式为: 字数占比=类别字数摘要总字数\text{字数占比} = \frac{\text{类别字数}}{\text{摘要总字数}} [47] 4. 批量调用:支持15条摘要批量处理,输入格式为system提示+user摘要内容[65] - 模型评价:输出格式符合率100%,结果稳定性优于R1版本,支持高效批量任务[63][65] 2. 模型名称:研报情绪密度策略模型 - 模型构建思路:基于情绪密度(利好字数占比)构建选股策略,重点捕捉"业绩超预期"和"盈利改善"等有效信号[5][6] - 模型具体构建过程: 1. 信号提取:计算每篇研报中各类别的利好密度(如盈利改善密度=正面情绪字数/总字数)[5] 2. 组合构建:按月频或不定期调仓,选取利好密度最高的股票构建多头组合[26][27] 3. 非线性优化:引入指数衰减加权调整近期研报权重[40] --- 量化因子与构建方式 1. 因子名称:简单加权评分因子(score_sum) - 构建思路:对研报中所有利好类别进行等权加总[6] - 具体构建过程: 1. 单篇研报评分公式: score_sum=i=1n(情绪值i×字数占比i)\text{score\_sum} = \sum_{i=1}^{n} (\text{情绪值}_i \times \text{字数占比}_i) 2. 个股评分=近期所有相关研报评分的均值[35] 2. 因子名称:篇幅加权评分因子(score_by_len) - 构建思路:按类别字数占比加权情绪值,反映信息篇幅权重[6] - 具体构建过程score_by_len=i=1n(情绪值i×类别字数i类别字数)\text{score\_by\_len} = \sum_{i=1}^{n} \left( \text{情绪值}_i \times \frac{\text{类别字数}_i}{\sum \text{类别字数}} \right) [36] 3. 因子名称:类别重要性加权因子(score_by_cat) - 构建思路:根据类别对股价的解释力(通过历史CAR回归确定)分配权重[37] - 具体构建过程: 1. 计算每类情绪对20日累计超额收益(CAR)的回归系数[38] 2. 权重公式: wi=βiβw_i = \frac{|\beta_i|}{\sum |\beta|} 3. 加权评分: score_by_cat=i=1n(wi×情绪值i)\text{score\_by\_cat} = \sum_{i=1}^{n} (w_i \times \text{情绪值}_i) 4. 因子名称:复合因子(score_report_llm) - 构建思路:等权合成上述四类因子,兼顾多样性与稳定性[6] - 具体构建过程score_report_llm=14(score_sum+score_by_len+score_by_cat+score_by_LenCat)\text{score\_report\_llm} = \frac{1}{4} (\text{score\_sum} + \text{score\_by\_len} + \text{score\_by\_cat} + \text{score\_by\_LenCat}) --- 模型回测效果 1. 复合因子(score_report_llm): - 年化收益12.8%,相对中证800超额13.5%[6] - 月胜率100%(2025年1-5月),最大回撤<4%[6] - 五分位收益单调性显著[47] 2. 情绪密度策略: - 盈利改善密度组合年化超额18.7%(月频调仓)[26] - 业绩超预期密度组合年化超额21.3%(不定期调仓)[29] --- 因子回测效果 1. score_sum因子: - IC均值0.082,IR 1.52[35] - 多头组合年化超额9.4%[43] 2. score_by_len因子: - IC均值0.096,IR 1.78[36] - 多头组合年化超额11.2%[44] 3. score_by_cat因子: - IC均值0.105,IR 1.91[38] - 多头组合年化超额12.0%[45] 4. score_by_LenCat因子: - IC均值0.112,IR 2.03[39] - 多头组合年化超额13.1%[46] (注:所有测试窗口均为报告发布后20-40日,基准为中证800)[6][35]