机器学习应用系列：T2RL：端到端深度强化学习因子挖掘与组合优化框架

报告行业投资评级 * 报告未明确给出对特定行业的投资评级，其核心是构建并验证一个名为T2RL的量化选股与组合优化框架，属于量化投资方法论研究 [2] 报告核心观点 * 报告构建了一个“预测与决策相耦合”的两阶段量化选股框架T2RL，旨在解决传统深度学习模型仅聚焦于收益率预测而难以实现投资组合全局优化的问题 [2] * 该框架第一阶段（TFAC模型）融合Transformer与Actor-Critic机制挖掘具备投资信号的因子，第二阶段（TFSAC模型）利用基于Transformer的Soft Actor-Critic算法进行动态权重优化，实现从个股预测到组合构建的完整闭环 [2] * 回测结果显示，T2RL框架在全市场及主要宽基指数成分股内均能稳定跑赢基准指数和因子等权组合，提升了策略的收益能力和风险控制水平 [2] 根据相关目录分别进行总结 1 组合构建新范式—深度学习与强化学习方法论融合 * 当前深度学习在量化选股中主要集中于收益率预测，但难以直接输出可执行的交易决策并实现组合层面的全局优化 [9] * 强化学习以序贯决策为目标，天然适配投资组合的动态管理场景，能够将交易成本、风险约束等现实因素纳入决策闭环 [10] * T2RL框架将Transformer的深度时序表征能力与强化学习的决策优化能力相结合，为量化投资提供新的范式探索 [10] 2 因子挖掘模型：融合 Transformer 和 Actor-Critic * 第一阶段构建了TFAC模型，利用Transformer提取量价时序数据的深度表征，并通过Actor-Critic框架引入方向准确奖励函数，使模型在预测时注重收益符号的正确性 [2][75] * 回测显示（2019年1月至2026年2月），TFAC因子RankIC为0.1119，多头组合年化收益率33.61%，优于传统Transformer模型（RankIC 0.0963，年化收益率31.32%）[84] * TFAC因子多头组合在大多数年份跑赢万得全A指数，2019至2026年2月相对万得全A平均年化超额收益率17.09% [87] 3 组合优化模型：基于 Transformer 的 SAC模型 * 第二阶段构建了TFSAC模型，首先根据TFAC因子筛选出排名前100的股票构成候选池以压缩动作空间，随后利用SAC算法在连续动作空间中学习权重分配策略 [2][100] * 模型奖励函数结合对数收益与方差，以平衡收益与风险 [106] * 全市场回测显示，单日调仓下T2RL组合年化收益率64.67%，相对万得全A等权指数年化超额收益率50.36%，相对TFAC因子多头等权组合年化超额收益率31.06% [116] * 在2日及5日调仓频率下，组合相对万得全A等权年化超额收益率分别为43.98%和25.33%，且均能跑赢因子多头等权组合 [116] 4 指数成分股组合测试 4.1 沪深 300 成分股组合测试 * 在沪深300成分股内，TFAC因子的RankIC为6.35%，Top10%多头组合相对沪深300指数年化超额收益率8.55% [2][128] * 单日调仓下，T2RLHS300组合年化收益率42.64%，相对沪深300指数年化超额收益率30.87%，相对因子多头等权组合超额20.43% [2][135] * 在2日及5日调仓频率下，组合相对沪深300指数年化超额收益率分别为25.74%和11.91% [2][135] 4.2 中证 1000 成分股组合测试 * 在中证1000成分股内，TFAC因子的RankIC为9.17%，Top10%多头组合相对中证1000指数年化超额收益率11.85% [2] * 单日调仓下，T2RLZZ1000组合相对中证1000指数年化超额收益率48.19%，相对因子多头组合年化超额收益率32.21% [2] * 在2日及5日调仓频率下，组合相对中证1000指数年化超额收益率分别为42.88%和27.35% [2]