解耦时序对比学习 - 财报，业绩电话会，研报，新闻

解耦时序对比学习

搜索文档

西南证券· 2025-12-25 19:40

量化模型与构建方式 1. 模型名称：DTLC_RL (解耦时序对比学习强化学习模型) **模型构建思路**：构建一个兼具深度学习非线性预测能力与良好可解释性的选股框架。通过特征空间解耦，分别构建面向市场系统风险（β空间）、个股特异特征（α空间）和个股基本面信息（θ空间）的编码器，并通过对比学习与正交约束提升各空间表征的区分度与互补性，最后引入强化学习近端策略优化（PPO）算法以实现自适应调整各空间权重进行动态融合[2][11][12]。 **模型具体构建过程**： 1. **多层次因子解耦与表征学习**：构建三个在数学上正交的潜在表征空间[11]。 * **Beta空间（市场系统风险）**：使用时间卷积网络（TCN）作为编码器，输入为5个市场相关特征的60个交易日时序数据[67][68]。TCN采用因果卷积和扩张卷积来捕捉时序依赖关系[13][17][19]。因果卷积确保输出只依赖于当前及历史输入，其约束为： $$y_{t}=f(x_{t},x_{t-1},\dots,x_{t-k+1})$$ 其中$y_t$为t时刻输出，$x_{t-j}$为历史输入，$k$为卷积核大小[17]。扩张因果卷积操作定义为： $$H_{l}=\mathrm{ReLU}\left(\mathrm{BatchNorm}\left(\mathrm{CausalConv1d}(X_{l},k,d_{l})\right)\right)$$ 完整残差块为： $$B l o c k(X)=A c t i v a t i o n\left(X+F(X)\right)$$ $$F(X)=W_{2}*\sigma(W_{1}*X)$$ * **Alpha空间（个股特异特征）**：使用多尺度Transformer模型作为编码器，输入为13个日频量价时序特征[76][77]。模型区分20日、40日、60日三个尺度，分别用Transformer层编码后进行上采样和门控融合[78][80]。Transformer核心的自注意力机制计算如下： $$Q\;=\;X W_{Q}\;,\;\;K\;=\;X W_{K}\;,\;\;V\;=\;X W_{V}\;,$$ $$Z=A t t e n t i o n(Q,K,V)=s o f t m a x\left({\frac{Q K^{T}}{\sqrt{d_{k}}}}\right)V$$ 多头注意力机制为： $$M u l t i h e a d\left(Q\ ,\ K\ ,\ V\right)=C o n c a t\left(h e a d_{1}\ ,\ \ldots\ \ ,\ h e a d_{h}\right)W_{o}$$ * **Theta空间（个股基本面信息）**：使用门控残差多层感知机（GRN）作为编码器，输入为8个核心财务指标[88][92]。GRN包含特征变换、门控机制和残差连接[38][39][43][45]。其计算过程包括： $$\tilde{x}=\;W_{1}x\;+\;b_{1}$$ $$s\;=\;E L U(W_{2}\tilde{x}+\;b_{2})$$ $$g\;=\;\sigma\bigl(W_{g}\,x\;+\;b_{g}\bigr)$$ $$\tilde{x}=s\odot g\,+\,x$$ 最终输出为层归一化结果：$G R N\left(x\right)=\ L a y e r N o r m\left({\tilde{x}}\right)$[47]。 2. **对比学习增强表征稳健性**：在每个子空间内部引入对比学习机制，通过构建基于未来收益率相似性的正负样本对，驱使编码器学习到的表征能够拉近同类样本、推远异类样本[12][52]。使用InfoNCE损失函数： $$L_{\mathrm{InfotNCE}}=-E\left[l o g~\frac{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)}{e x p\left(f(x)^{\top}f(x^{+})/\tau\right)+\sum_{i=1}^{N-1}~e x p\left(f(x)^{\top}f(x_{i}^{-})/\tau\right)}\right]$$ 其中相似度计算采用余弦相似度：$\sin(\mathbf{u},\mathbf{v})={\frac{\mathbf{u}^{\mathrm{{T}}}\mathbf{v}}{|\mathbf{u}||\mathbf{v}|}}$[55]。正样本为未来20日收益率相关系数大于80%的样本，负样本为相关系数小于0%的样本[104]。 3. **正交约束保障因子独立性**：设置正交化损失函数，强制要求三个子空间输出的表征向量在统计上接近相互独立，缓解多重共线性问题[12]。损失函数为三空间输出编码信息的协方差矩阵非对角线元素平方和[104]。 4. **强化学习驱动空间融合**：在三个编码器后引入强化学习动态复权的空间融合机制[116]。将三个子空间编码与市场环境特征拼接成状态$s_t$，输入策略网络（Actor）生成三维空间权重[120]。策略网络采用PPO算法进行优化，其目标是最大化期望累积回报： $$J(\theta)=E_{\tau^{-\pi_{\theta}}}[R(\tau)]=E_{\tau^{-\pi_{\theta}}}\left[\sum_{t=0}^{T}\gamma^{t}r_{t}\right]$$ PPO通过裁剪目标函数稳定策略更新： $$\mathrm{CLIP}\left(\theta\right)=E_{t}\left[mi\ n(r_{t}\left(\theta\right)\overline{A_{t}},\mathrm{clip}(r_{t}\left(\theta\right),1-\epsilon,1+\epsilon)\overline{A_{t}}\right]$$ 其中$r_t(\theta)$为新旧策略概率比：$r_{t}\left(\theta\right)=\frac{\pi_{\theta}\left(a_{t}\left|s_{t}\right.\right)}{\pi_{\theta_{\mathrm{old}}}\left(a_{t}\left|s_{t}\right.\right)}$[61][63]。优势函数$\hat{A_t}$通过广义优势估计（GAE）计算： $$A_{t}^{\widehat{\mathrm{GAE}\,(\gamma,\lambda)}}=\sum_{l=0}^{\infty}(\gamma\lambda)^{l}\delta_{t+l}$$ $$\delta_{t}=r_{t}+\gamma V(s_{t+1})-V(s_{t})$$ $$\widehat{A_{t}}=\delta_{t}+\gamma\lambda\widehat{A_{t+1}}$$ 奖励函数$r_t$由预测收益与实际收益的相关系数奖励$R_t^{IC}$、权重稳定性奖励$R_t^{stable}$和权重分散性奖励$R_t^{div}$组成： $$r_{t}=R_{t}^{I C}\big(\widehat{y_{t}},y_{y}\big)+\lambda_{s}R_{t}^{s t a b l e}+\lambda_{d}R_{t}^{d i v}$$ 加权融合后的特征通过预测头网络输出个股未来收益率预测$\hat{y_t}$[120][121]。 **模型评价**：该模型为深度学习在量化选股中的应用提供了一条兼具“非线性能力”与“可解释性”的路径[159]。 2. 模型名称：DTLC_Linear (线性融合模型) **模型构建思路**：作为强化学习融合版本的基准模型，将三个空间的编码信息进行合并，并通过单层线性层进行处理并接入预测头进行收益率预测[2][98]。 **模型具体构建过程**：将Beta、Alpha、Theta三个空间经过对比学习优化后的高维编码直接进行拼接，输入一个包含线性层和Softmax激活的轻量网络，动态生成空间权重，进而对编码进行加权融合，最终通过预测头输出收益率预测[98]。训练过程采用以信息系数（IC）最大化为核心目标的多任务损失函数，并同样引入了对比学习损失和正交约束损失[98][102]。 **模型评价**：为科学评估强化学习融合机制的实际贡献提供了可对比的基准[98]。 3. 模型名称：DTLC_Equal (等权融合模型) **模型构建思路**：作为简单的融合对照组，直接对三个空间独立训练出的因子进行等权求和[2][98]。 **模型具体构建过程**：分别训练Beta_TCN、Alpha_Transformer、Theta-ResMLP三个因子，然后将每个因子的值进行等权相加，得到最终的合成因子[98][103]。 4. 因子名称：Beta_TCN **因子构建思路**：捕捉市场系统性风险，量化个股对市场风险因素的不同敏感度[67]。 **因子具体构建过程**：选取5个市场相关特征：收益率暴露(beta_mkt)、波动率敏感度(beta_vol)、流动性beta(beta_liq)、大小盘暴露(beta_size)、市场情绪敏感度(beta_sent)[67][72]。将这5个特征的60个交易日时序数据输入TCN编码器（结构如DTLC_RL模型中的Beta空间编码器），输出一个32维向量作为Beta空间编码，并进一步通过预测头输出收益率预测，形成因子[68][73]。 **因子评价**：可以挖掘出个股暴露在beta中的相关信息，具备一定的选股效果[73]。 5. 因子名称：Alpha_Transformer **因子构建思路**：挖掘个股特异性信息（Alpha）[76][81]。 **因子具体构建过程**：选取13个日频量价时序特征，如量价背离度(pvo)、压力支撑效率(sse)、波动率偏度(skew)等[77]。将这些特征的时序数据输入多尺度Transformer编码器（结构如DTLC_RL模型中的Alpha空间编码器），输出收益率预测，形成因子[78][80]。 **因子评价**：可以学习到一定程度的个股特异性信息，且与beta空间编码器学习的信息重合度相对适中[82]。 6. 因子名称：Theta-ResMLP **因子构建思路**：系统性地挖掘个股的财务安全边际与抗风险能力，基于价值投资理论中的安全边际原则[88][95]。 **因子具体构建过程**：选取8个核心财务指标特征：市盈率(pe)、市净率(pb)、ROE均值比标准差(roemeantostd)、股息率(dividendyield)、ROE环比(roemom)、EPS同比(epsyoy)、营业利润率(operatingprofit)、ROIC(roic)[88]。将这些截面特征输入门控残差MLP编码器（结构如DTLC_RL模型中的Theta空间编码器），输出收益率预测，形成因子[92][94]。 **因子评价**：可以学习到一定程度的个股基本面信息，且与beta、alpha空间编码器学习的信息重合度较低，边际信息提供量较大[96]。模型的回测效果（回测区间：2019年1月至2025年11月，全A范围，Top10%多头组合） 1. **DTLC_RL模型**，IC: 0.1250，ICIR: 4.38，年化收益率: 34.77%，年化波动率: 25.41%，信息比率: 1.37，最大回撤率: 40.65%，单边月均换手率: 0.71X[122][123]。 2. **DTLC_Linear模型**，IC: 0.1239，ICIR: 4.25，年化收益率: 32.95%，年化波动率: 24.39%，信息比率: 1.35，最大回撤率: 35.94%，单边月均换手率: 0.76[103][105]。 3. **DTLC_Equal模型**，IC: 0.1202，ICIR: 4.06，年化收益率: 32.46%，年化波动率: 25.29%，信息比率: 1.28，最大回撤率: 40.65%，单边月均换手率: 0.71[103][105]。因子的回测效果（回测区间：2019年1月至2025年11月，全A范围，Top10%多头组合） 1. **Beta_TCN因子**，IC: 0.0969，ICIR: 3.73，年化收益率: 27.73%，年化波动率: 27.19%，信息比率: 1.02，最大回撤率: 45.80%，单边月均换手率: 0.79X[2][73]。 2. **Alpha_Transformer因子**，IC: 0.1137，ICIR: 4.19，年化收益率: 32.66%，年化波动率: 23.04%，信息比率: 1.42，最大回撤率: 27.59%，单边月均换手率: 0.83X[2][80][81]。 3. **Theta-ResMLP因子**，IC: 0.0485，ICIR: 1.87，年化收益率: 23.88%，年化波动率: 23.96%，信息比率: 0.99，最大回撤率: 37.41%，单边月均换手率: 0.41X[2][94][95]。

强化学习

解耦时序对比学习

量化选股

解耦时序对比学习强化学习模型（DTLC_RL）

解耦时序对比学习强化学习模型（DTLC_RL）

时间卷积网络（TCN）

Transformer模型