【广发金工】强化学习与价格择时

强化学习在量化投资中的应用 - 强化学习通过试错机制最大化累计奖励，适合构建择时策略，而常规深度学习主要用于固定窗口期的股价预测或因子挖掘[1][6][7] - Double Deep Q-Network（DDQN）模型结合深度学习和强化学习，用于A股指数和个股的择时应用[2][8] - 择时策略采用10分钟频量价数据，模型每10分钟输出买入/卖出信号，遵循t+1交易规则[2][75] 强化学习基本概念 - 强化学习包含状态、动作、状态转移、策略、奖励、轨迹和回报等基本要素[9][12][13][22][27][28] - 状态价值衡量策略在特定状态下的预期长期回报，动作价值衡量特定状态下采取动作的回报期望值[41][43] - 贝尔曼方程和贝尔曼最优方程从理论上定义了最优状态价值和最优策略的关系[46][48] 时序差分法与Q-Learning - 时序差分法结合动态规划和蒙特卡罗方法，实现单步更新和在线学习[49][50] - SARSA是on-policy方法，基于当前策略实际动作更新Q值，而Q-Learning是off-policy方法，基于最大Q值更新[52][54] - DQN利用神经网络近似动作价值函数，解决大规模问题，DDQN通过分离动作选择和评估缓解高估问题[59][62] 基于强化学习的价格择时策略 - 策略定义包括限价订单、订单簿、OHLCV、技术指标、持仓和净值等概念[63][64] - 状态由单步特征、上下文特征和持仓状态组成，动作包括买入、卖出等决策，奖励为净值差[65][66] - 实证分析显示，在2023-2025年样本外测试中，策略在沪深300ETF、中证500ETF、中证1000ETF和个股上分别跑赢基准10.9%、35.5%、64.9%和37.8%[3][75][77][80][83] 总结与展望 - 强化学习在量化投资领域展现出构建择时策略的潜力，但仍面临稳定性不足等挑战[85][86] - 未来研究将探索更多强化学习算法以构建性能更优越的策略[86]