Workflow
机器学习因子选股月报(2025年5月)-20250430
西南证券·2025-04-30 16:14

量化模型与构建方式 1. 模型名称:GAN_GRU模型 - 模型构建思路:结合生成式对抗网络(GAN)和门控循环单元(GRU)的深度学习模型,用于挖掘量价时序特征并预测股票收益[9][10] - 模型具体构建过程: 1. 数据预处理:使用过去400天的18个量价特征(如收盘价、成交量等),每5天采样一次,形成40×18的时序特征矩阵[14] 2. GAN部分: - 生成器(LSTM):输入噪声生成模拟量价特征,损失函数为判别器对生成数据的判别概率: LG=EzPz(z)[log(D(G(z))))]L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z))))] [20] - 判别器(CNN):区分真实与生成数据,损失函数为: LD=ExPdata(x)[log ⁣D(x)]EzPz(z)[log(1D(G(z)))]L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))] [23] 3. GRU部分:将GAN生成的特征输入GRU(128,128)层,接MLP(256,64,64)输出预测收益pRet作为选股因子[18] 4. 训练方式:半年滚动训练,行业市值中性化处理[14][18] - 模型评价:通过对抗训练提升特征生成能力,保留时序特性,适配金融数据的高噪声特点[29][33] --- 模型的回测效果 1. GAN_GRU模型 - IC均值:11.73%(全A股,2019-2025)[37] - ICIR:0.90[38] - 年化超额收益率:24.89%[38] - 信息比率(IR):1.66[38] - 最大回撤:27.29%[38] - 最新一期IC:0.22%(2025年4月)[37] - 行业表现: - 当期IC最高行业:银行(33.46%)、钢铁(30.85%)[39] - 近一年超额收益最高行业:家用电器(5.56%)、石油石化(5.39%)[41] --- 量化因子与构建方式 1. 因子名称:GAN_GRU因子 - 因子构建思路:基于GAN_GRU模型输出的预测收益pRet,经行业市值中性化后作为选股因子[18][37] - 因子具体构建过程: 1. 输入原始量价时序特征(40天×18维)[14] 2. 通过GAN生成增强特征,GRU编码后输出预测收益[34] 3. 截面标准化并剔除ST股及上市不足半年的股票[14] --- 因子的回测效果 1. GAN_GRU因子 - 多头组合年化收益:36.06%[38] - 年化波动率:23.80%[38] - 换手率:0.83[38] - 近一年IC均值:11.44%[37] - 行业多头超额收益:纺织服饰(6.78%)、基础化工(5.61%)[41] --- 多头组合示例(2025年4月) - 前十个股:国网英大、海容冷链、陕西能源等[44][46] - 行业排名第一个股:非银金融(国网英大)、机械设备(海容冷链)[44]