量化模型与构建方式 1. 模型名称:SAC(Soft Actor-Critic)强化学习模型 - 模型构建思路:基于最大熵强化学习理论,结合策略梯度方法和Q学习,优化交易策略,平衡探索与利用[22][26] - 模型具体构建过程: 1. SAC算法采用Actor-Critic框架,包含一个策略网络(Actor)和两个价值网络(Critic)[26] 2. 策略网络通过对高斯分布采样生成动作,价值网络通过最小化贝尔曼残差预测动作值Q函数[26] 3. 目标函数为最大化策略的熵和期望累积奖励,公式如下: 其中,为即时奖励,为折现因子,为熵权重,为策略的熵[44][45] 4. SAC使用两个Q网络,基于Double DQN思想,每次选择较小的Q值以缓解过高估计问题[26] - 模型评价:通过增加熵项,SAC算法增强了策略的探索能力,减少了陷入局部最优的可能性,提升了模型的泛化能力和适应性[22][26] 2. 模型名称:StockFormer强化学习交易策略 - 模型构建思路:结合Transformer模型的预测编码能力与SAC强化学习的策略优化能力,提取潜在状态并优化交易决策[30][40] - 模型具体构建过程: 1. 使用三个改进的Transformer分支分别提取短期收益预测、中期收益预测和股票间相关性的潜在表示[33][35] 2. 将短期和中期预测状态通过多头注意力层整合为未来状态,再与关系状态合并为SAC的输入状态[40] 3. SAC强化学习部分输出策略函数,决定买入/卖出金额,优化目标与SAC一致[45] - 模型评价:StockFormer通过联合训练,将预测编码模块与强化学习策略有机结合,显著提升了交易策略的表现[75] --- 模型的回测效果 1. SAC模型 - 年化收益:32.7% - 超额收益:29.1% - 信息比率(IR):2.57 - 周度胜率:60.1% - 最大回撤:-5.5% - 双边换手率:56.14%[62][64] 2. Transformer模型(基准) - 年化收益:17.2% - 超额收益:13.8% - 信息比率(IR):2.36 - 周度胜率:64.5% - 最大回撤:-4.2% - 双边换手率:35.50%[59][62] --- 量化因子与构建方式 1. 因子名称:Transformer因子 - 因子构建思路:基于Transformer模型提取时间序列数据的潜在特征,用于收益排序[30][54] - 因子具体构建过程: 1. 数据输入为过去60个交易日的高开低收、成交量、VWAP及20个技术因子,进行时序z-score标准化[53] 2. 使用Transformer模型的多头注意力机制提取时间序列特征,输出收益排序作为因子[30][54] - 因子评价:Transformer因子能够有效捕捉时间序列中的潜在模式,但其表现受限于中证1000成分股的范围[57] 2. 因子名称:StockFormer因子 - 因子构建思路:通过StockFormer模型提取短期、中期收益预测及股票间相关性,形成组合状态空间[33][40] - 因子具体构建过程: 1. 短期预测因子:基于1天收益预测的潜在状态[40] 2. 中期预测因子:基于5天收益预测的潜在状态[40] 3. 关系因子:基于股票量价协方差矩阵和技术指标,捕捉股票间动态相关性[35] 4. 将上述因子整合为SAC强化学习的输入状态[40] - 因子评价:StockFormer因子通过多维度特征的融合,显著提升了模型的预测能力和交易策略的表现[75] --- 因子的回测效果 1. Transformer因子 - 周度RankIC均值:10.3% - ICIR:1.02[57] 2. StockFormer因子 - 年化收益:32.7% - 超额收益:29.1% - 信息比率(IR):2.57 - 超额收益波动率较大,但主要为上行波动[64][76]
量化分析报告:基于强化学习的组合优化在指增策略中的应用
民生证券·2024-06-17 14:22