根据提供的研报内容,以下是量化模型和因子的详细总结: 量化模型与构建方式 1. 模型名称:MP-Adv-DRL-Cor 模型构建思路:结合卷积神经网络(CNN)提取资产价格的动态特征,使用WaveNet建模资产间的交叉依赖性,通过深度强化学习(DRL)优化多期投资组合配置[2][24] 模型具体构建过程: - CNN模块:输入层归一化资产收益,卷积层通过ReLU激活函数提取特征(公式14-15),池化层降维,全连接层合成特征[25][27] - WaveNet模块:采用WaveCorr层捕捉资产时变依赖性(公式16-18),通过膨胀卷积扩大感受野[28] - DRL决策模块:将CNN和WaveNet输出作为DPG算法输入,优化目标函数(公式19),包含交易成本和风险厌恶约束[29][31] 2. 模型名称:MP-CS-PPN-Cor 模型构建思路:使用CNN提取收益特征,结合时间卷积块(TCCB)分析相关性,通过策略网络生成组合权重[43] 3. 模型名称:MP-DPG 模型构建思路:基于深度确定性策略梯度(DPG)的多期优化方法,采用EIIE算法[43] 4. 模型名称:SP-Adv-DRL-Cor 模型构建思路:单期版本的MP-Adv-DRL-Cor,仅优化短期目标[43] 模型的回测效果 1. MP-Adv-DRL-Cor模型 - 标普100指数:h=36时年化收益29.21%,波动率36.14%,夏普比率0.808,最大回撤32.09%[52] - 道琼斯指数:h=36时年化收益28.88%,波动率34.32%,夏普比率0.841[52] - 交易成本影响:ξ=0.5%时年化收益降至18.14%(h=36)[64] 2. MP-CS-PPN-Cor模型 - 标普100指数:h=22时夏普比率0.829,显著优于EW策略[66] 3. EW模型 - 标普100指数:h=1时年化收益12.48%,夏普比率0.508[52] 关键公式 1. 资产收益计算: [18] 2. 多期目标函数: [20] 3. 带约束的奖励函数: [31] 模型评价 1. MP-Adv-DRL-Cor:在高维环境中表现优越,能有效平衡长期收益与风险,但对超参数(如风险厌恶系数λ)敏感[52][56] 2. WaveNet结构:相比TCCB具有置换不变性优势,能更稳定捕捉资产相关性[66] 3. 多期策略:长期持有(h>22)通常能提升收益,但需警惕波动率上升风险[52]
“学海拾珠”系列之二百二十七:使用深度强化学习解决高维多期环境下的组合配置
华安证券·2025-03-14 16:09