Multi - Step DQN

搜索文档
神经因子挖掘(五):强化学习混频Multi-StepDQN择时策略
长江证券· 2025-06-26 19:41
报告核心观点 - 设计 DQN 核心是学习给定市场状态下最优交易动作潜在价值,将其应用于中证 1000 指数日频择时,模型信号有有效预测能力,构建策略显著超越基准,多步优化 DQN 进一步提升信号质量和策略表现,证明其在量化择时领域潜力,但强化学习模型存在稳定性不足等问题 [3] 强化学习与量化投资 收益率预测模型存在的问题 - 传统机器学习和深度学习方法在股票收益率预测上虽能让投资者获稳定收益,但预测值与未来收益率相关系数难超 20%,预测准确率在 70%甚至 60%以下较常见,且使用负 IC 和均方误差作损失函数时预测值表现和投资收益相近,说明是模糊预测而非精确回归任务 [14] - 传统神经网络存在隐患,包括优化指标不直接,只能优化股票收益率或排序值预测能力来提升策略;生成投资组合流程不连续,因子挖掘、合成和组合优化步骤间断,预测指标提升不代表策略提升;在资产择时问题上因数据量少易过拟合 [16] 强化学习的基础概念 - 强化学习是学习在规则下交易资产,利用已知信息交易以优化策略目标,涉及智能体、环境、行为、状态、奖励、状态转移和回报等概念 [20] - 智能体根据状态做决策,环境是交互对象,行为是决策动作,状态是环境概括,奖励是环境反馈数值,状态转移是状态变化过程,回报是奖励总和,强化学习目标是寻找使回报最大化的最优策略 [21][22][23][24][25][30][31] 强化学习算法在量化中的应用 - 1996 - 2022 年学术界用强化学习研究量化金融文章近年激增,主要方法有基于价值学习的 DQN、Q 学习,基于策略学习的递归强化学习、策略梯度算法以及演员 - 评论家的 DDPG、PPO [35] - 本文采用使用最多的基于价值学习的 DQN 构建择时策略,虽 Actor - Critic 的 DDPG 算法也是好选择,但在本文框架下效果不佳,不同算法需精心设计体现优势 [37][39] DQN 与 Q - learning - 动作价值函数是计算基于指定策略采取动作的未来回报期望值,判断状态下动作好坏;最优动作价值函数是排除策略影响,只评价状态和动作好坏,Q 学习目的是学到最优动作价值函数,DQN 用神经网络替代 Q 表格近似 Q 函数 [40][41] - TD 算法训练 DQN 让 Q 网络对 t 时刻和下一时刻未来回报预测值之差接近真实奖励,更新 Q 网络的 MSE 损失函数基于此设计 [47] - DQN 训练有目标网络、ε - 贪婪策略和经验回放等优化技巧,目标网络切断自举缓解高估,ε - 贪婪策略提升探索能力,经验回放打破序列相关性、重复利用经验 [52][53][54] 日频择时策略 - 构建日频择时策略需定义强化学习五要素,环境是 A 股资产日频择时策略,状态是过去价量数据和持仓,智能体是神经网络,动作是做多、空仓和做空,奖励是结合交易成本的未来 5 日收益率 [58][62] - 网络结构对日频和分钟频数据用 GRU 提取信息,与持仓向量合并后经线性层等给出动作价值,输入数据经特征工程有 54 个特征,采用时序 Zscore 标准化 [59][64] 中证 1000 择时实践 - 以中证 1000 指数为标的,测试集 2022 年 7 月 22 日 - 2025 年 5 月 23 日,每年滚动训练,采用 50 次实验取平均缓解训练结果差异 [65] - 测试集结果显示,DQN 预测未来 5 日收益率表现上,做空信号胜率高,做多信号触发多且收益率大于零概率达 55.18%,空仓信号有做空价值,做多信号盈亏比高于做空信号 [68] - 构建的多空、多头和空头策略均跑赢基准,多空策略年化收益率 64.90%,但最大回撤高,空头策略稳定性好,仓位变化有连续性 [69][73] 优化:Multi - Step DQN - 多步 DQN 用多步奖励函数构造多步 TD 目标替代原始 TD 目标,减少 DQN 自举产生的高估问题,与蒙特卡洛方法相比各有优劣 [76] - 采用 3 步 TD 目标优化后,做多和做空信号比例更均衡,指标提升,各策略年化收益提高,风险控制指标改善,如多空策略年化收益率达 79.44% [79][83] 强化学习的不足 - 强化学习存在稳定性不足问题,算法本身不稳定,需多次训练取平均降低方差;超参数敏感,折扣因子等改变可能使效果失效;易样本内过拟合,样本内回测收益率远高于样本外;模型有黑箱性,预测值难解释 [85][86] 总结 - 传统量化投资方法有局限,强化学习可直接优化收益和风险指标,整合决策流程,缓解传统方法痛点 [89] - DQN 适合单一资产择时,应用于中证 1000 指数日频择时效果好,信号有效,策略跑赢基准,仓位连续合理,Multi - Step DQN 进一步优化信号质量和策略表现 [90][91] - 需认识到强化学习模型存在稳定性不足、超参数敏感、样本内过拟合和模型黑箱性等问题,实际投资不可完全依赖预测值 [91]