Workflow
投资组合选择
icon
搜索文档
学海拾珠系列之二百三十四:利用强化学习和文本网络改进相关矩阵估计
华安证券· 2025-05-08 16:07
量化模型与构建方式 1. **模型名称**:RL-TBN(基于文本网络的强化学习模型) - **模型构建思路**:通过融合强化学习的动态优化与文本网络(TBN)的结构化先验,构建数据驱动的协方差矩阵估计框架。强化学习采用近似策略优化(PPO)算法,TBN用于衡量企业间的产品相似性[3] - **模型具体构建过程**: 1. **收缩方法**:将样本协方差矩阵向目标矩阵收缩,公式为: $$\widetilde{\mathbf{R}}_{t}=(1-\alpha)\widehat{\mathbf{R}}_{t}+\alpha\mathbf{\widetilde{R}}_{t}$$ 其中$\alpha$为收缩强度,$\widetilde{\mathbf{R}}_{t}$为目标矩阵(如TBN或单位矩阵)[32][33] 2. **TBN构建**:解析公司10-K报告中的产品描述,计算企业间相似性得分。通过归一化词向量和余弦相似度构建TBN矩阵: $$B_{t}={\frac{M_{t}M_{t}^{\mathsf{T}}}{\|M_{t}\|_{F}^{2}}}$$ $M_t$为归一化后的企业产品描述矩阵[37][38] 3. **强化学习优化**: - 状态定义为股票收益向量$s_t = (r_{1,t}, r_{2,t}, ..., r_{N,t})$ - 动作为收缩强度$\alpha_t$ - 奖励函数采用指数效用:$r_t = \frac{1 - e^{-\gamma r_{p,t}}}{\gamma}$,其中$r_{p,t}$为投资组合收益率[48] - 使用PPO算法更新策略,目标函数为: $$J(\theta) = \mathbb{E}[\min(\rho_t(\theta) A_t, \text{clip}(\rho_t(\theta), 1-\epsilon, 1+\epsilon) A_t)]$$ $\rho_t$为策略比率,$A_t$为优势函数[53] - **模型评价**:RL-TBN结合了TBN的低波动性优势和RL的动态适应性,能有效降低估计误差并提升投资组合稳健性[4][5] 量化因子与构建方式 1. **因子名称**:基于文本网络的相似性因子(TBN因子) - **因子构建思路**:通过分析公司10-K报告中的产品描述,量化企业间产品相似性,作为股票相关性的先验信息[36] - **因子具体构建过程**: 1. 提取每家公司10-K报告中描述产品的非通用名词(约200个/公司) 2. 构建二进制词向量$P_i$并归一化: $$V_{i}={\frac{P_{i}}{\|P_{i}\|_{2}^{2}}}$$ 3. 计算企业间余弦相似度,形成TBN矩阵$B_t$[37][38] - **因子评价**:TBN因子具有低波动性和基本面关联性,能捕捉行业结构和供应链关系,优于传统相关性矩阵[23][24] --- 模型的回测效果 1. **RL-TBN模型**: - 年化波动率:0.088 - 夏普比率:1.351 - 风险价值(VaR):0.129 - 换手率:未明确数值(但提及考虑20bps交易成本)[4][77][79] 2. **基准模型对比**: - 样本协方差法(Sample):波动率0.186,夏普比率0.805 - TBN固定收缩法(TBN_Half):波动率0.186,夏普比率0.805 - 等权重组合(Naive):波动率未明确,夏普比率低于RL-TBN[77][79] --- 因子的回测效果 1. **TBN因子**: - 预测股票相关性:滞后一期的TBN相似性得分对下一期股票相关性的回归系数为0.349(显著)[106] - 矩阵范数稳定性:TBN的Frobenius范数波动显著低于样本相关性矩阵[100][101] - 经济周期敏感性:高收缩强度($\alpha>0.773$)与低投资者情绪(-0.106)和高宏观经济不确定性(0.938)显著相关[94][95] --- 补充分析 - **面板向量自回归(PVAR)**:验证TBN与股票相关性的动态关系,过渡矩阵显示TBN对相关性有持续影响[109][110] - **脉冲响应分析**:TBN相似性得分每增加1单位,未来股票相关性下降0.133单位(统计显著)[106][110]