FinBERT
搜索文档
上市公司数字技术风险暴露数据(2007-2024年)
搜狐财经· 2025-12-10 15:57
研究数据与方法论 - 研究构建了2007年至2024年上市公司数字技术风险暴露数据集,数据可通过指定方式获取 [2] - 采用FinBERT大语言模型对企业年度报告MD&A部分进行文本情感识别,以构建企业-年份层面的数字技术风险指标,FinBERT是国内首个金融领域大规模语料训练的开源模型 [2] - 选择MD&A文本作为分析基础,因其被大量文献证实具有客观有效的信息含量和风险揭示功能,且部分企业会在此部分明确提及技术风险 [3] - 首先从MD&A文本中抓取与数字技术风险相关的论述,通过构建涵盖数据风险和网络风险两大来源的关键词列表,并利用Word2vec模型扩展关键词词典以提高普适性 [3] 模型训练与数据标注 - 从经过关键词筛选的句子中随机抽取10%的样本进行标注,以判断论述是否反映风险暴露或防范措施 [4] - 采用美国OpenAI公司的ChatGPT和国内智谱清言公司的ChatGLM两种AI模型结合人工复核的方式进行标注,以提高效率和准确性 [4] - 标注时,将反映数字技术风险可能对公司运营产生负面影响的论述界定为“风险暴露”,赋值为-1(负面情感);将反映企业采取风险防范措施的论述界定为“风险防范”,赋值为1(正面情感) [5] - 将标注数据按0.6:0.4的比例划分为训练集和验证集,对模型进行预训练,并设置模型评价指标 [5] 风险指标构建 - 企业数字技术风险暴露指标定义为:每年MD&A涉及数字技术风险的文本中,负面文本的负面情感概率最大值与正面文本的正面情感概率平均值之间的差值 [6] - 该构造使用最大风险点捕捉极端技术风险敞口,使用平均风险防范水平衡量整体应对能力 [6] - 进一步根据文本关键词差异,构建了数据安全风险和网络安全风险两个次级指标 [6] 指标有效性检验 - 通过验证技术风险暴露与其他风险的相关性来检验指标有效性,发现技术风险暴露与企业财务风险、经营风险等其他风险之间存在显著正向关联 [7] - 通过验证算法准确率来检验指标有效性,在涉及数字技术风险的文本中多次随机抽样进行人工审核,发现模型在情感分析任务中表现出较高准确性,尤其在情感倾向明显的句子中 [8]
AI赋能资产配置(十八):LLM助力资产配置与投资融合
国信证券· 2025-10-29 22:43
核心观点 - 大语言模型通过强大的文本理解与逻辑推理能力,将舆情、政策、财报等非结构化信息转化为结构化因子,重塑资产配置的信息基础,显著提升投研响应速度与前瞻性 [1] - 真正的落地不依赖单一模型性能,而是依赖“LLM+实时数据+优化器”的协作机制,通过模型分工形成可执行、可解释的投资Agent [1] - 当前LLM在舆情信号提取、财报解析、投资推理和Agent构建等多个环节已具备可操作路径,具备增强传统资产配置体系的现实基础 [1] - 未来LLM将从“辅助工具”走向“核心推理与交互中枢”,资产配置将从静态决策向智能化、动态演进转变,重塑买方投研与策略执行逻辑 [1] 信息优势重构 - LLM使得舆情、财报、政策文本等软信息可以被高效提取、量化并嵌入配置模型,FinBERT、FinGPT、BloombergGPT、PloutosGPT等模型在情绪识别、文本解析与投资推理上展现出明确优势 [2][11] - 非结构化信息的系统化利用增强了市场预期感知能力,使策略具备更高的灵敏度与前瞻性 [2][11] - 传统金融建模长期依赖结构化数值数据,难以捕捉文本信息中的市场预期、情绪变化与定性洞察,LLM为处理海量非结构化文本提供了全新解法 [11] - 在实际投资工作中,从信息收集、信号提取到收益预测、组合配置和风险管理,几乎每一个环节都可以嵌入LLM模块,显著强化信息敏感性、决策解释性以及配置灵活性 [12] 技术落地路径 - 通过模块化设计,LLM与API、RAG、数值优化器形成分工协作:LLM负责文本理解与逻辑推理;外接API与RAG提供实时行情、财报与宏观变量;优化器完成资产配权与约束求解 [2][13][16] - 这种结构既提升了策略的稳定性与可解释性,也具备较强的可扩展性,适用于多资产配置 [2][16] - LLM存在知识时间滞后、难以处理高频金融数据及输出幻觉风险等结构性局限,需通过提示工程、外接API与RAG以及专业数值优化器来形成优势互补 [13][15][16] - 最终可形成具有实际操作性的“投资Agent”:LLM负责理解投资者目标并生成任务;外部数据层提供实时信息;数值优化器完成配权计算;LLM输出投资说明与风险提示 [17] 具体应用案例:舆情信号增强 - 策略核心是通过LLM从财经新闻、社交媒体及公司公告中提取情绪信号,并转化为结构化的“情绪因子”,嵌入Black-Litterman或均值-方差优化等资产配置框架 [21][22] - 具体流程包括:使用FinBERT、FinGPT、FLANG等模型对文本进行情绪打分并聚合为“行业情绪指数”,再通过阈值识别极端情绪状态 [22] - 在配置模型中,当某行业情绪显著上行时,可上调该行业预期超额收益0.5%~1.0%,再由优化器更新组合权重;市场整体情绪转负时则自动降低权益敞口 [23][24] - 此方法能提前捕捉市场预期变化,响应灵敏,但需注意舆情信号存在噪声和潜在偏差,需配合风险约束与置信度控制机制 [24] 具体应用案例:财报信号驱动 - 利用LLM在财报发布后快速提取关键财务与非财务信号,并将其嵌入收益预测与资产配置模型,形成高效的财报驱动动态配置框架 [25][26] - 解析主力模型包括BloombergGPT、GPT-4与PloutosGPT,用于财报摘要、要点提取和多模态信息融合;FinGPT与Mengzi-BERTbase-fin适用于中文财报解析 [25][26] - 解析结果被量化为财报因子,与时间序列模型结合对未来1-3个月的行业或资产收益率进行短期预测,研究显示PloutosGPT在市场波动期的预测准确率显著优于单纯统计方法 [26] - 预测结果作为输入被纳入资产配置框架,财报发布时间同步触发组合再平衡,增强了对盈利周期变化的响应速度 [27][29] 具体应用案例:投资Agent全流程 - 案例构建了一个整合LLM、实时数据接口与数值优化器的Agent系统,实现从信息→信号→优化→执行的全链条投资应用 [20][31] - 核心思路是模块化分工:LLM负责认知与逻辑推理;API与RAG提供实时信息支撑;数值优化器完成配权计算;最终由LLM输出可解释的投资建议 [31][34] - 具体实施包括:通过提示工程和多轮采样构建稳定的“备选资产池”;使用CVXPY建模和CPLEX求解器计算最优投资组合;利用LangGraph协调模块化工作流 [33][34] - 该Agent系统体现了LLM的真正价值在于强化传统量化框架的认知与推理能力,形成清晰的责任边界和可复用的策略流程,是目前机构投资者实现智能化投研落地的现实路径 [35] 未来展望 - LLM与强化学习、Auto-Agent、多智能体系统及个性化投研平台的深度结合,将推动资产配置从工具化向系统化、从线性流程向智能演进过渡 [3][39] - 投研人员与模型将通过高频对话、情景推演与策略反馈形成闭环,资产配置将从静态决策走向动态演进,迈入下一代智能化资产管理的新阶段 [3][39] - LLM在资产配置中的角色正从“辅助工具”逐步演变为“核心推理与交互中枢”,为机构构建信息优势与策略护城河的核心技术路径 [3][37]