研究数据与方法论 - 研究构建了2007年至2024年上市公司数字技术风险暴露数据集,数据可通过指定方式获取 [2] - 采用FinBERT大语言模型对企业年度报告MD&A部分进行文本情感识别,以构建企业-年份层面的数字技术风险指标,FinBERT是国内首个金融领域大规模语料训练的开源模型 [2] - 选择MD&A文本作为分析基础,因其被大量文献证实具有客观有效的信息含量和风险揭示功能,且部分企业会在此部分明确提及技术风险 [3] - 首先从MD&A文本中抓取与数字技术风险相关的论述,通过构建涵盖数据风险和网络风险两大来源的关键词列表,并利用Word2vec模型扩展关键词词典以提高普适性 [3] 模型训练与数据标注 - 从经过关键词筛选的句子中随机抽取10%的样本进行标注,以判断论述是否反映风险暴露或防范措施 [4] - 采用美国OpenAI公司的ChatGPT和国内智谱清言公司的ChatGLM两种AI模型结合人工复核的方式进行标注,以提高效率和准确性 [4] - 标注时,将反映数字技术风险可能对公司运营产生负面影响的论述界定为“风险暴露”,赋值为-1(负面情感);将反映企业采取风险防范措施的论述界定为“风险防范”,赋值为1(正面情感) [5] - 将标注数据按0.6:0.4的比例划分为训练集和验证集,对模型进行预训练,并设置模型评价指标 [5] 风险指标构建 - 企业数字技术风险暴露指标定义为:每年MD&A涉及数字技术风险的文本中,负面文本的负面情感概率最大值与正面文本的正面情感概率平均值之间的差值 [6] - 该构造使用最大风险点捕捉极端技术风险敞口,使用平均风险防范水平衡量整体应对能力 [6] - 进一步根据文本关键词差异,构建了数据安全风险和网络安全风险两个次级指标 [6] 指标有效性检验 - 通过验证技术风险暴露与其他风险的相关性来检验指标有效性,发现技术风险暴露与企业财务风险、经营风险等其他风险之间存在显著正向关联 [7] - 通过验证算法准确率来检验指标有效性,在涉及数字技术风险的文本中多次随机抽样进行人工审核,发现模型在情感分析任务中表现出较高准确性,尤其在情感倾向明显的句子中 [8]
上市公司数字技术风险暴露数据(2007-2024年)
搜狐财经·2025-12-10 15:57