Workflow
解耦时序对比学习
icon
搜索文档
机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
西南证券· 2025-12-25 19:40
量化模型与构建方式 1. 模型名称:DTLC_RL (解耦时序对比学习强化学习模型) **模型构建思路**:构建一个兼具深度学习非线性预测能力与良好可解释性的选股框架。通过特征空间解耦,分别构建面向市场系统风险(β空间)、个股特异特征(α空间)和个股基本面信息(θ空间)的编码器,并通过对比学习与正交约束提升各空间表征的区分度与互补性,最后引入强化学习近端策略优化(PPO)算法以实现自适应调整各空间权重进行动态融合[2][11][12]。 **模型具体构建过程**: 1. **多层次因子解耦与表征学习**:构建三个在数学上正交的潜在表征空间[11]。 * **Beta空间(市场系统风险)**:使用时间卷积网络(TCN)作为编码器,输入为5个市场相关特征的60个交易日时序数据[67][68]。TCN采用因果卷积和扩张卷积来捕捉时序依赖关系[13][17][19]。因果卷积确保输出只依赖于当前及历史输入,其约束为: $$y_{t}=f(x_{t},x_{t-1},\dots,x_{t-k+1})$$ 其中$y_t$为t时刻输出,$x_{t-j}$为历史输入,$k$为卷积核大小[17]。扩张因果卷积操作定义为: $$H_{l}=\mathrm{ReLU}\left(\mathrm{BatchNorm}\left(\mathrm{CausalConv1d}(X_{l},k,d_{l})\right)\right)$$ 完整残差块为: $$B l o c k(X)=A c t i v a t i o n\left(X+F(X)\right)$$ $$F(X)=W_{2}*\sigma(W_{1}*X)$$ * **Alpha空间(个股特异特征)**:使用多尺度Transformer模型作为编码器,输入为13个日频量价时序特征[76][77]。模型区分20日、40日、60日三个尺度,分别用Transformer层编码后进行上采样和门控融合[78][80]。Transformer核心的自注意力机制计算如下: $$Q\;=\;X W_{Q}\;,\;\;K\;=\;X W_{K}\;,\;\;V\;=\;X W_{V}\;,$$ $$Z=A t t e n t i o n(Q,K,V)=s o f t m a x\left({\frac{Q K^{T}}{\sqrt{d_{k}}}}\right)V$$ 多头注意力机制为: $$M u l t i h e a d\left(Q\ ,\ K\ ,\ V\right)=C o n c a t\left(h e a d_{1}\ ,\ \ldots\ \ ,\ h e a d_{h}\right)W_{o}$$ * **Theta空间(个股基本面信息)**:使用门控残差多层感知机(GRN)作为编码器,输入为8个核心财务指标[88][92]。GRN包含特征变换、门控机制和残差连接[38][39][43][45]。其计算过程包括: $$\tilde{x}=\;W_{1}x\;+\;b_{1}$$ $$s\;=\;E L U(W_{2}\tilde{x}+\;b_{2})$$ $$g\;=\;\sigma\bigl(W_{g}\,x\;+\;b_{g}\bigr)$$ $$\tilde{x}=s\odot g\,+\,x$$ 最终输出为层归一化结果:$G R N\left(x\right)=\ L a y e r N o r m\left({\tilde{x}}\right)$[47]。 2. **对比学习增强表征稳健性**:在每个子空间内部引入对比学习机制,通过构建基于未来收益率相似性的正负样本对,驱使编码器学习到的表征能够拉近同类样本、推远异类样本[12][52]。使用InfoNCE损失函数: $$L_{\mathrm{InfotNCE}}=-E\left[l o g~\frac{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)}{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)+\sum_{i=1}^{N-1}~e x p\left(f(x)^{\top}f(x_{i}^{-})/\tau\right)}\right]$$ 其中相似度计算采用余弦相似度:$\sin(\mathbf{u},\mathbf{v})={\frac{\mathbf{u}^{\mathrm{{T}}}\mathbf{v}}{|\mathbf{u}||\mathbf{v}|}}$[55]。正样本为未来20日收益率相关系数大于80%的样本,负样本为相关系数小于0%的样本[104]。 3. **正交约束保障因子独立性**:设置正交化损失函数,强制要求三个子空间输出的表征向量在统计上接近相互独立,缓解多重共线性问题[12]。损失函数为三空间输出编码信息的协方差矩阵非对角线元素平方和[104]。 4. **强化学习驱动空间融合**:在三个编码器后引入强化学习动态复权的空间融合机制[116]。将三个子空间编码与市场环境特征拼接成状态$s_t$,输入策略网络(Actor)生成三维空间权重[120]。策略网络采用PPO算法进行优化,其目标是最大化期望累积回报: $$J(\theta)=E_{\tau^{-\pi_{\theta}}}[R(\tau)]=E_{\tau^{-\pi_{\theta}}}\left[\sum_{t=0}^{T}\gamma^{t}r_{t}\right]$$ PPO通过裁剪目标函数稳定策略更新: $$\mathrm{CLIP}\left(\theta\right)=E_{t}\left[mi\ n(r_{t}\left(\theta\right)\overline{A_{t}},\mathrm{clip}(r_{t}\left(\theta\right),1-\epsilon,1+\epsilon)\overline{A_{t}}\right]$$ 其中$r_t(\theta)$为新旧策略概率比:$r_{t}\left(\theta\right)=\frac{\pi_{\theta}\left(a_{t}\left|s_{t}\right.\right)}{\pi_{\theta_{\mathrm{old}}}\left(a_{t}\left|s_{t}\right.\right)}$[61][63]。优势函数$\hat{A_t}$通过广义优势估计(GAE)计算: $$A_{t}^{\widehat{\mathrm{GAE}\,(\gamma,\lambda)}}=\sum_{l=0}^{\infty}(\gamma\lambda)^{l}\delta_{t+l}$$ $$\delta_{t}=r_{t}+\gamma V(s_{t+1})-V(s_{t})$$ $$\widehat{A_{t}}=\delta_{t}+\gamma\lambda\widehat{A_{t+1}}$$ 奖励函数$r_t$由预测收益与实际收益的相关系数奖励$R_t^{IC}$、权重稳定性奖励$R_t^{stable}$和权重分散性奖励$R_t^{div}$组成: $$r_{t}=R_{t}^{I C}\big(\widehat{y_{t}},y_{y}\big)+\lambda_{s}R_{t}^{s t a b l e}+\lambda_{d}R_{t}^{d i v}$$ 加权融合后的特征通过预测头网络输出个股未来收益率预测$\hat{y_t}$[120][121]。 **模型评价**:该模型为深度学习在量化选股中的应用提供了一条兼具“非线性能力”与“可解释性”的路径[159]。 2. 模型名称:DTLC_Linear (线性融合模型) **模型构建思路**:作为强化学习融合版本的基准模型,将三个空间的编码信息进行合并,并通过单层线性层进行处理并接入预测头进行收益率预测[2][98]。 **模型具体构建过程**:将Beta、Alpha、Theta三个空间经过对比学习优化后的高维编码直接进行拼接,输入一个包含线性层和Softmax激活的轻量网络,动态生成空间权重,进而对编码进行加权融合,最终通过预测头输出收益率预测[98]。训练过程采用以信息系数(IC)最大化为核心目标的多任务损失函数,并同样引入了对比学习损失和正交约束损失[98][102]。 **模型评价**:为科学评估强化学习融合机制的实际贡献提供了可对比的基准[98]。 3. 模型名称:DTLC_Equal (等权融合模型) **模型构建思路**:作为简单的融合对照组,直接对三个空间独立训练出的因子进行等权求和[2][98]。 **模型具体构建过程**:分别训练Beta_TCN、Alpha_Transformer、Theta-ResMLP三个因子,然后将每个因子的值进行等权相加,得到最终的合成因子[98][103]。 4. 因子名称:Beta_TCN **因子构建思路**:捕捉市场系统性风险,量化个股对市场风险因素的不同敏感度[67]。 **因子具体构建过程**:选取5个市场相关特征:收益率暴露(beta_mkt)、波动率敏感度(beta_vol)、流动性beta(beta_liq)、大小盘暴露(beta_size)、市场情绪敏感度(beta_sent)[67][72]。将这5个特征的60个交易日时序数据输入TCN编码器(结构如DTLC_RL模型中的Beta空间编码器),输出一个32维向量作为Beta空间编码,并进一步通过预测头输出收益率预测,形成因子[68][73]。 **因子评价**:可以挖掘出个股暴露在beta中的相关信息,具备一定的选股效果[73]。 5. 因子名称:Alpha_Transformer **因子构建思路**:挖掘个股特异性信息(Alpha)[76][81]。 **因子具体构建过程**:选取13个日频量价时序特征,如量价背离度(pvo)、压力支撑效率(sse)、波动率偏度(skew)等[77]。将这些特征的时序数据输入多尺度Transformer编码器(结构如DTLC_RL模型中的Alpha空间编码器),输出收益率预测,形成因子[78][80]。 **因子评价**:可以学习到一定程度的个股特异性信息,且与beta空间编码器学习的信息重合度相对适中[82]。 6. 因子名称:Theta-ResMLP **因子构建思路**:系统性地挖掘个股的财务安全边际与抗风险能力,基于价值投资理论中的安全边际原则[88][95]。 **因子具体构建过程**:选取8个核心财务指标特征:市盈率(pe)、市净率(pb)、ROE均值比标准差(roemeantostd)、股息率(dividendyield)、ROE环比(roemom)、EPS同比(epsyoy)、营业利润率(operatingprofit)、ROIC(roic)[88]。将这些截面特征输入门控残差MLP编码器(结构如DTLC_RL模型中的Theta空间编码器),输出收益率预测,形成因子[92][94]。 **因子评价**:可以学习到一定程度的个股基本面信息,且与beta、alpha空间编码器学习的信息重合度较低,边际信息提供量较大[96]。 模型的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. **DTLC_RL模型**,IC: 0.1250,ICIR: 4.38,年化收益率: 34.77%,年化波动率: 25.41%,信息比率: 1.37,最大回撤率: 40.65%,单边月均换手率: 0.71X[122][123]。 2. **DTLC_Linear模型**,IC: 0.1239,ICIR: 4.25,年化收益率: 32.95%,年化波动率: 24.39%,信息比率: 1.35,最大回撤率: 35.94%,单边月均换手率: 0.76[103][105]。 3. **DTLC_Equal模型**,IC: 0.1202,ICIR: 4.06,年化收益率: 32.46%,年化波动率: 25.29%,信息比率: 1.28,最大回撤率: 40.65%,单边月均换手率: 0.71[103][105]。 因子的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. **Beta_TCN因子**,IC: 0.0969,ICIR: 3.73,年化收益率: 27.73%,年化波动率: 27.19%,信息比率: 1.02,最大回撤率: 45.80%,单边月均换手率: 0.79X[2][73]。 2. **Alpha_Transformer因子**,IC: 0.1137,ICIR: 4.19,年化收益率: 32.66%,年化波动率: 23.04%,信息比率: 1.42,最大回撤率: 27.59%,单边月均换手率: 0.83X[2][80][81]。 3. **Theta-ResMLP因子**,IC: 0.0485,ICIR: 1.87,年化收益率: 23.88%,年化波动率: 23.96%,信息比率: 0.99,最大回撤率: 37.41%,单边月均换手率: 0.41X[2][94][95]。