Workflow
StockFormer:基于Transformer的强化学习模型探究
民生证券·2024-07-30 00:01

量化模型与构建方式 1. 模型名称:SAC强化学习模型 - 模型构建思路:基于Actor-Critic框架的深度强化学习方法,通过双Q网络降低Q值高估风险,并引入熵正则化项以鼓励策略探索[2][20][22] - 模型具体构建过程: 1. 双Q网络:使用两个独立的Q网络对目标函数进行估计,目标值计算时选择最小的一个,降低Q值高估风险 2. 熵正则化项:在目标函数中加入熵正则化项,公式如下: Jπ=t=0TEπθ[rt+γEst+1p(st+1st,at)[Q(St+1,at+1)αlogπθ(at+1st+1)]] J_{\pi}=\sum_{t=0}^{T}E_{\pi_{\theta}}[r_{t}+\gamma E_{s_{t+1}\sim p(s_{t+1}|s_{t},a_{t})}\left[Q(S_{t+1},a_{t+1})-\alpha\log\pi_{\theta}(a_{t+1}|s_{t+1})\right]] 其中,rtr_t为即时奖励,γ\gamma为折现因子,α\alpha为熵正则项权重[22][23] 3. 自适应熵系数:通过优化熵系数动态调整策略的探索程度[23] 4. 目标函数优化:价值网络梯度优化公式为: minϕE(s,a)D[12(Qϕ(s,a)Q^(s,a))2] \min_{\phi} \mathbb{E}_{(s,a)\sim D} \left[ \frac{1}{2} \left( Q_{\phi}(s,a) - \hat{Q}(s,a) \right)^2 \right] 策略网络梯度优化公式为: minθEstD[Dπθ(st)/Zϕ(st)] \operatorname*{min}_{\theta}\mathbb{E}_{s_{t}\sim D}\left[D\pi_{\theta}(\,\cdot|\,s_{t}\,)/Z_{\phi}(s_{t})\right] 其中,Q^(s,a)\hat{Q}(s,a)为目标Q值,Zϕ(st)Z_{\phi}(s_t)为归一化因子[37] - 模型评价:通过双Q网络和熵正则化项的引入,模型有效避免了过拟合和局部最优问题,同时提升了策略的探索能力[2][23] 2. 模型名称:StockFormer强化学习模型 - 模型构建思路:结合Transformer深度学习与SAC强化学习,通过多头注意力机制提取市场状态,优化交易决策[3][26][34] - 模型具体构建过程: 1. Transformer模块: - 使用三个Transformer网络分别预测市场相关状态、短期收益状态和长期收益状态 - 改进Transformer的多头注意力机制,用多头前馈网络(FFNs)代替单个FFN,增强特征解耦能力[30][33] - 输入数据包括个股量价信息、技术因子等,输出潜在状态表示[30][33] 2. 状态合成:将三个Transformer的输出通过多头注意力层整合为未来状态,再与关系状态合并为SAC的输入状态[34] 3. SAC强化学习: - SAC部分继承了Transformer网络结构,输出每日交易行为与持仓 - 奖励函数替换为超额收益-跟踪误差-交易费用,优化交易策略[34][37] - 模型评价:通过结合深度学习与强化学习,模型在收益弹性和市场主线识别能力上表现优异,但在低频交易中效果有所下降[49][52] 3. 模型名称:Transformer模型 - 模型构建思路:基于Transformer深度学习模型,通过多头注意力机制预测个股周度收益排序,构建指数增强组合[4][39] - 模型具体构建过程: 1. 输入数据:日频行情与20个日频技术因子,包括情绪、动量等因子[39][41] 2. 模型结构: - 输入维度为26,隐藏层维度为64,层数为2,注意力头数为10 - 损失函数为负IC,优化器为Adam,学习率为0.001[40] 3. 训练与回测: - 半年度训练一次,训练集+验证集为6年,随机取20%天数作为验证集 - 回测窗口为2019年至2024年5月31日,交易费用为双边千分之三[44] - 模型评价:模型表现稳定,但在风格适应性和交易拥挤问题上存在一定局限性[44][45] --- 模型的回测效果 1. SAC强化学习模型 - 年化收益:32.7% - 超额收益:29.1% - 信息比率(IR):2.57 - 周度胜率:60.1% - 最大回撤:-5.5% - 双边换手率:71.14倍[49][50] 2. StockFormer强化学习模型 - 年化收益:32.7% - 超额收益:29.1% - 信息比率(IR):2.57 - 周度胜率:60.1% - 最大回撤:-5.5% - 双边换手率:71.14倍[49][50] 3. Transformer模型 - 年化收益:17.2% - 超额收益:13.8% - 信息比率(IR):2.36 - 周度胜率:64.5% - 最大回撤:-4.2% - 双边换手率:35.50倍[44][45] --- 量化因子与构建方式 1. 因子名称:Transformer因子 - 因子构建思路:基于Transformer模型输出的个股周度收益排序作为选股因子[39][41] - 因子具体构建过程: 1. 输入数据:过去60个交易日的个股量价信息与20个技术因子 2. 模型输出:个股未来5日收益排序分位数,作为因子[40] 3. 因子表现:周度RankIC均值为10.3%,ICIR为1.02[41][42] - 因子评价:因子表现尚可,但受限于中证1000成分股的训练范围,可能影响预测效果[41][42] --- 因子的回测效果 1. Transformer因子 - 年化收益:17.2% - 超额收益:13.8% - 信息比率(IR):2.36 - 周度胜率:64.5% - 最大回撤:-4.2% - 双边换手率:35.50倍[44][45]