机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
西南证券·2025-12-25 19:40

量化模型与构建方式 1. 模型名称:DTLC_RL (解耦时序对比学习强化学习模型) 模型构建思路:构建一个兼具深度学习非线性预测能力与良好可解释性的选股框架。通过特征空间解耦,分别构建面向市场系统风险(β空间)、个股特异特征(α空间)和个股基本面信息(θ空间)的编码器,并通过对比学习与正交约束提升各空间表征的区分度与互补性,最后引入强化学习近端策略优化(PPO)算法以实现自适应调整各空间权重进行动态融合[2][11][12]。 模型具体构建过程: 1. 多层次因子解耦与表征学习:构建三个在数学上正交的潜在表征空间[11]。 * Beta空间(市场系统风险):使用时间卷积网络(TCN)作为编码器,输入为5个市场相关特征的60个交易日时序数据[67][68]。TCN采用因果卷积和扩张卷积来捕捉时序依赖关系[13][17][19]。因果卷积确保输出只依赖于当前及历史输入,其约束为: yt=f(xt,xt1,,xtk+1)y_{t}=f(x_{t},x_{t-1},\dots,x_{t-k+1}) 其中yty_t为t时刻输出,xtjx_{t-j}为历史输入,kk为卷积核大小[17]。扩张因果卷积操作定义为: Hl=ReLU(BatchNorm(CausalConv1d(Xl,k,dl)))H_{l}=\mathrm{ReLU}\left(\mathrm{BatchNorm}\left(\mathrm{CausalConv1d}(X_{l},k,d_{l})\right)\right) 完整残差块为: Block(X)=Activation(X+F(X))B l o c k(X)=A c t i v a t i o n\left(X+F(X)\right) F(X)=W2σ(W1X)F(X)=W_{2}*\sigma(W_{1}*X) * Alpha空间(个股特异特征):使用多尺度Transformer模型作为编码器,输入为13个日频量价时序特征[76][77]。模型区分20日、40日、60日三个尺度,分别用Transformer层编码后进行上采样和门控融合[78][80]。Transformer核心的自注意力机制计算如下: Q  =  XWQ  ,    K  =  XWK  ,    V  =  XWV  ,Q\;=\;X W_{Q}\;,\;\;K\;=\;X W_{K}\;,\;\;V\;=\;X W_{V}\;, Z=Attention(Q,K,V)=softmax(QKTdk)VZ=A t t e n t i o n(Q,K,V)=s o f t m a x\left({\frac{Q K^{T}}{\sqrt{d_{k}}}}\right)V 多头注意力机制为: Multihead(Q , K , V)=Concat(head1 ,   , headh)WoM u l t i h e a d\left(Q\ ,\ K\ ,\ V\right)=C o n c a t\left(h e a d_{1}\ ,\ \ldots\ \ ,\ h e a d_{h}\right)W_{o} * Theta空间(个股基本面信息):使用门控残差多层感知机(GRN)作为编码器,输入为8个核心财务指标[88][92]。GRN包含特征变换、门控机制和残差连接[38][39][43][45]。其计算过程包括: x~=  W1x  +  b1\tilde{x}=\;W_{1}x\;+\;b_{1} s  =  ELU(W2x~+  b2)s\;=\;E L U(W_{2}\tilde{x}+\;b_{2}) g  =  σ(Wgx  +  bg)g\;=\;\sigma\bigl(W_{g}\,x\;+\;b_{g}\bigr) x~=sg+x\tilde{x}=s\odot g\,+\,x 最终输出为层归一化结果:GRN(x)= LayerNorm(x~)G R N\left(x\right)=\ L a y e r N o r m\left({\tilde{x}}\right)[47]。 2. 对比学习增强表征稳健性:在每个子空间内部引入对比学习机制,通过构建基于未来收益率相似性的正负样本对,驱使编码器学习到的表征能够拉近同类样本、推远异类样本[12][52]。使用InfoNCE损失函数: LInfotNCE=E[log exp(f(x)f(x+)/τ)exp(f(x)f(x+)/τ)+i=1N1 exp(f(x)f(xi)/τ)]L_{\mathrm{InfotNCE}}=-E\left[l o g~\frac{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)}{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)+\sum_{i=1}^{N-1}~e x p\left(f(x)^{\top}f(x_{i}^{-})/\tau\right)}\right] 其中相似度计算采用余弦相似度:sin(u,v)=uTvuv\sin(\mathbf{u},\mathbf{v})={\frac{\mathbf{u}^{\mathrm{{T}}}\mathbf{v}}{|\mathbf{u}||\mathbf{v}|}}[55]。正样本为未来20日收益率相关系数大于80%的样本,负样本为相关系数小于0%的样本[104]。 3. 正交约束保障因子独立性:设置正交化损失函数,强制要求三个子空间输出的表征向量在统计上接近相互独立,缓解多重共线性问题[12]。损失函数为三空间输出编码信息的协方差矩阵非对角线元素平方和[104]。 4. 强化学习驱动空间融合:在三个编码器后引入强化学习动态复权的空间融合机制[116]。将三个子空间编码与市场环境特征拼接成状态sts_t,输入策略网络(Actor)生成三维空间权重[120]。策略网络采用PPO算法进行优化,其目标是最大化期望累积回报: J(θ)=Eτπθ[R(τ)]=Eτπθ[t=0Tγtrt]J(\theta)=E_{\tau^{-\pi_{\theta}}}[R(\tau)]=E_{\tau^{-\pi_{\theta}}}\left[\sum_{t=0}^{T}\gamma^{t}r_{t}\right] PPO通过裁剪目标函数稳定策略更新: CLIP(θ)=Et[mi n(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At]\mathrm{CLIP}\left(\theta\right)=E_{t}\left[mi\ n(r_{t}\left(\theta\right)\overline{A_{t}},\mathrm{clip}(r_{t}\left(\theta\right),1-\epsilon,1+\epsilon)\overline{A_{t}}\right] 其中rt(θ)r_t(\theta)为新旧策略概率比:rt(θ)=πθ(atst)πθold(atst)r_{t}\left(\theta\right)=\frac{\pi_{\theta}\left(a_{t}\left|s_{t}\right.\right)}{\pi_{\theta_{\mathrm{old}}}\left(a_{t}\left|s_{t}\right.\right)}[61][63]。优势函数At^\hat{A_t}通过广义优势估计(GAE)计算: AtGAE(γ,λ)^=l=0(γλ)lδt+lA_{t}^{\widehat{\mathrm{GAE}\,(\gamma,\lambda)}}=\sum_{l=0}^{\infty}(\gamma\lambda)^{l}\delta_{t+l} δt=rt+γV(st+1)V(st)\delta_{t}=r_{t}+\gamma V(s_{t+1})-V(s_{t}) At^=δt+γλAt+1^\widehat{A_{t}}=\delta_{t}+\gamma\lambda\widehat{A_{t+1}} 奖励函数rtr_t由预测收益与实际收益的相关系数奖励RtICR_t^{IC}、权重稳定性奖励RtstableR_t^{stable}和权重分散性奖励RtdivR_t^{div}组成: rt=RtIC(yt^,yy)+λsRtstable+λdRtdivr_{t}=R_{t}^{I C}\big(\widehat{y_{t}},y_{y}\big)+\lambda_{s}R_{t}^{s t a b l e}+\lambda_{d}R_{t}^{d i v} 加权融合后的特征通过预测头网络输出个股未来收益率预测yt^\hat{y_t}[120][121]。 模型评价:该模型为深度学习在量化选股中的应用提供了一条兼具“非线性能力”与“可解释性”的路径[159]。 2. 模型名称:DTLC_Linear (线性融合模型) 模型构建思路:作为强化学习融合版本的基准模型,将三个空间的编码信息进行合并,并通过单层线性层进行处理并接入预测头进行收益率预测[2][98]。 模型具体构建过程:将Beta、Alpha、Theta三个空间经过对比学习优化后的高维编码直接进行拼接,输入一个包含线性层和Softmax激活的轻量网络,动态生成空间权重,进而对编码进行加权融合,最终通过预测头输出收益率预测[98]。训练过程采用以信息系数(IC)最大化为核心目标的多任务损失函数,并同样引入了对比学习损失和正交约束损失[98][102]。 模型评价:为科学评估强化学习融合机制的实际贡献提供了可对比的基准[98]。 3. 模型名称:DTLC_Equal (等权融合模型) 模型构建思路:作为简单的融合对照组,直接对三个空间独立训练出的因子进行等权求和[2][98]。 模型具体构建过程:分别训练Beta_TCN、Alpha_Transformer、Theta-ResMLP三个因子,然后将每个因子的值进行等权相加,得到最终的合成因子[98][103]。 4. 因子名称:Beta_TCN 因子构建思路:捕捉市场系统性风险,量化个股对市场风险因素的不同敏感度[67]。 因子具体构建过程:选取5个市场相关特征:收益率暴露(beta_mkt)、波动率敏感度(beta_vol)、流动性beta(beta_liq)、大小盘暴露(beta_size)、市场情绪敏感度(beta_sent)[67][72]。将这5个特征的60个交易日时序数据输入TCN编码器(结构如DTLC_RL模型中的Beta空间编码器),输出一个32维向量作为Beta空间编码,并进一步通过预测头输出收益率预测,形成因子[68][73]。 因子评价:可以挖掘出个股暴露在beta中的相关信息,具备一定的选股效果[73]。 5. 因子名称:Alpha_Transformer 因子构建思路:挖掘个股特异性信息(Alpha)[76][81]。 因子具体构建过程:选取13个日频量价时序特征,如量价背离度(pvo)、压力支撑效率(sse)、波动率偏度(skew)等[77]。将这些特征的时序数据输入多尺度Transformer编码器(结构如DTLC_RL模型中的Alpha空间编码器),输出收益率预测,形成因子[78][80]。 因子评价:可以学习到一定程度的个股特异性信息,且与beta空间编码器学习的信息重合度相对适中[82]。 6. 因子名称:Theta-ResMLP 因子构建思路:系统性地挖掘个股的财务安全边际与抗风险能力,基于价值投资理论中的安全边际原则[88][95]。 因子具体构建过程:选取8个核心财务指标特征:市盈率(pe)、市净率(pb)、ROE均值比标准差(roemeantostd)、股息率(dividendyield)、ROE环比(roemom)、EPS同比(epsyoy)、营业利润率(operatingprofit)、ROIC(roic)[88]。将这些截面特征输入门控残差MLP编码器(结构如DTLC_RL模型中的Theta空间编码器),输出收益率预测,形成因子[92][94]。 因子评价:可以学习到一定程度的个股基本面信息,且与beta、alpha空间编码器学习的信息重合度较低,边际信息提供量较大[96]。 模型的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. DTLC_RL模型,IC: 0.1250,ICIR: 4.38,年化收益率: 34.77%,年化波动率: 25.41%,信息比率: 1.37,最大回撤率: 40.65%,单边月均换手率: 0.71X[122][123]。 2. DTLC_Linear模型,IC: 0.1239,ICIR: 4.25,年化收益率: 32.95%,年化波动率: 24.39%,信息比率: 1.35,最大回撤率: 35.94%,单边月均换手率: 0.76[103][105]。 3. DTLC_Equal模型,IC: 0.1202,ICIR: 4.06,年化收益率: 32.46%,年化波动率: 25.29%,信息比率: 1.28,最大回撤率: 40.65%,单边月均换手率: 0.71[103][105]。 因子的回测效果 (回测区间:2019年1月至2025年11月,全A范围,Top10%多头组合) 1. Beta_TCN因子,IC: 0.0969,ICIR: 3.73,年化收益率: 27.73%,年化波动率: 27.19%,信息比率: 1.02,最大回撤率: 45.80%,单边月均换手率: 0.79X[2][73]。 2. Alpha_Transformer因子,IC: 0.1137,ICIR: 4.19,年化收益率: 32.66%,年化波动率: 23.04%,信息比率: 1.42,最大回撤率: 27.59%,单边月均换手率: 0.83X[2][80][81]。 3. Theta-ResMLP因子,IC: 0.0485,ICIR: 1.87,年化收益率: 23.88%,年化波动率: 23.96%,信息比率: 0.99,最大回撤率: 37.41%,单边月均换手率: 0.41X[2][94][95]。