自然语言处理 - 财报，业绩电话会，研报，新闻

自然语言处理

搜索文档

东北证券· 2025-06-25 15:12

报告核心观点 - 基于东方财富网上证指数吧散户评论构建的指标与上证指数有同步走势关系，但不同年份关联不稳定 [2][116] - 散户情绪易被短期价格波动影响，情绪指标是价格波动结果，看多或看空观点是对当前价格反应 [3][116] - 以技术分析思路观察情绪指标，其突破阈值时市场走势会相应转变，可辅助判断市场后续走势 [3][111][117] 前言 - 互联网普及使投资者在评论区发表观点，可能影响交易决策，可通过自然语言处理分析评论信息 [10] - 采用 BERT 模型和情感词典方法识别评论情感，分析散户评论行为及价值 [11] 自然语言处理方法之 BERT 模型介绍 - 自然语言处理融合多学科，含理解和生成两方面，旨在实现人机有效沟通 [12] - 2018 年 BERT 模型问世改写局面，其是基于 Transformer 的双向预训练语言模型，表征基于所有层左右语境 [13][15] - BERT 技术原理是“双向预训练 + 任务特定微调”，预训练基于掩码语言模型与下一句预测任务 [18] - BERT 核心优势是通用性，学习到的语言表征可迁移到几乎所有 NLP 任务 [32] 基于投资者评论文本的情感分析投资者文本数据的获取和预处理 - 东方财富网上证指数吧评论可刻画投资者情绪，对市场舆情判断有参考意义 [34] - 对评论进行筛选，保留近 500 万条评论文本数据，其长度、月度发帖等分布与散户评论行为认知一致 [37] 基于 BERT 模型的评论文本分析 - 用 BERT 模型对评论进行情感标注，分为看多、看空和中性三类 [48] - 评估模型分类效果，BERT 模型在训练集和测试集上有一定准确度 [54] - 情绪得分多数为负值，与行情同步，与指数涨跌幅、成交额相关性随机不稳定 [67] 基于情感词典的评论文本分析 - 基于情感词典的文本分析通过匹配词汇计算得分判断文本情感，金融情感词典更适配金融文本 [69] - 采用姚加权等人的金融情感词典，结合正式和非正式用语词典分析评论 [72] - 基于情感词典的评论情感标签分布与 BERT 模型结果相近，看空评论多于看多评论 [79] - 定义情绪分歧度，其反映多空情绪强弱，与市场走势有关，分歧度高可能预示市场变化 [82][84] - 看空情绪指标与上证指数走势同步，无显著领先性，上下行关系不稳定 [91] - 看空情绪指标边际变化与当天上证指数涨跌幅负相关，与次日无显著相关性 [95] - 当日看空情绪变化与次日上证指数成交额负相关，相关性随时间推移减弱 [107] - 从技术分析角度，情绪指标突破阈值时可预示市场走势变化 [111][112] 总结 - 分析股吧评论特征及价值，考察相关指标与上证指数关系，走势关系同步但不稳定 [116] - 散户情绪受价格波动影响，评论是情绪宣泄，情绪指标可辅助判断市场走势 [116][117] 参考文献 - 引用姚加权等人关于金融情绪词典的论文和 Devlin 等人关于 BERT 模型的论文 [118]