机器学习因子选股月报(2026年5月)-20260429
西南证券·2026-04-29 18:05

量化模型与构建方式 1. 模型名称:GAN_GRU模型[4][13] * 模型构建思路:利用生成式对抗网络(GAN)对量价时序特征进行增强处理,再利用门控循环单元(GRU)模型对处理后的时序特征进行编码,最终输出股票的未来收益预测作为选股因子[4][13]。 * 模型具体构建过程: 1. 数据准备:使用个股过去400个交易日的18个量价特征[14][17][19]。每5个交易日进行一次特征采样,采样形状为40天*18个特征,用以预测未来20个交易日的累计收益[18]。 2. 数据处理:对每次采样的40天内的每个特征,在时间序列上进行去极值+标准化处理;同时,在每个截面上对所有个股的每个特征进行标准化[18]。 3. GAN特征生成: * 生成器 (G):采用LSTM模型,输入原始量价时序特征(形状为(40, 18)),输出增强后的量价时序特征(形状仍为(40, 18))[33][37]。生成器的目标是让判别器无法区分其生成的数据与真实数据,其损失函数为: LG=EzPz(z)[log(D(G(z)))]L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))] 其中,z是随机噪声,G(z)是生成器输出的数据,D(G(z))是判别器判断G(z)为真实数据的概率[24]。 * 判别器 (D):采用卷积神经网络(CNN)模型,用于判断输入数据是真实量价特征还是生成器生成的假特征[33]。其损失函数为: LD=ExPdata(x)[log ⁣D(x)]EzPz(z)[log(1D(G(z)))]L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))] 其中,x是真实数据,D(x)是判别器判断x为真实数据的概率[27]。 * 训练过程:交替训练生成器和判别器,使两者相互对抗、共同提升[29][30]。 4. GRU收益预测:将GAN生成器增强后的特征输入到一个两层GRU网络(GRU(128, 128))中,后面再接一个多层感知机(MLP(256, 64, 64))[22]。模型最终输出的预测收益(pRet)即为GAN_GRU选股因子[22]。 5. 模型训练: * 训练/验证集划分:80%的数据用于训练,20%用于验证[18]。 * 训练方式:采用半年滚动训练,每年6月30日和12月31日各训练一次模型,用于预测未来半年的收益[18]。 * 样本筛选:选取全市场股票,剔除ST股及上市不足半年的股票;同时剔除标签(未来收益)为空值的样本[18]。 * 超参数:批大小(batch_size)为截面股票数量,优化器为Adam,学习率为1e-4,损失函数为IC,早停轮数为10,最大训练轮数为50[18]。 * 模型评价:该模型结合了GAN的数据增强能力和GRU的时序建模能力,旨在挖掘更深层次的量价时序特征以预测股票收益[4][13]。 量化因子与构建方式 1. 因子名称:GAN_GRU因子[4][13] * 因子的构建思路:通过GAN_GRU模型输出的股票未来20个交易日的预测收益(pRet)作为选股因子[4][13][22]。在测试和应用前,因子会经过行业和市值中性化处理,并进行标准化[22]。 * 因子具体构建过程:因子值直接来源于上述GAN_GRU模型的输出结果。具体步骤即上述模型的完整构建与预测过程[4][13][18][22]。 模型的回测效果 1. GAN_GRU模型(基于因子构建的多头组合,全A股范围,月频调仓,测试期:2019年2月至2026年4月)[41][42] * 年化收益率:36.26%[42] * 年化波动率:23.24%[42] * 信息比率(IR):1.56[42] * 最大回撤率:27.29%[42] * 年化超额收益率:21.62%[4][42] 2. GAN_GRU模型(因子IC表现,全A股范围,月频调仓,测试期:2019年2月至2026年4月)[41][42] * IC均值:0.1078[4][41][42] * ICIR(未年化):0.88[42] * 换手率:0.82X[42] * 最新一期IC(2026年4月):-0.0531[4][41][42] * 近一年IC均值:0.0480[4][41][42] 因子的回测效果 1. GAN_GRU因子(行业IC表现,截至2026年4月)[42] * 当期IC排名前五的行业及IC值: * 农林牧渔:0.3139[42] * 石油石化:0.2845[42] * 煤炭:0.2646[42] * 消费者服务:0.2021[42] * 银行:0.1941[42] 2. GAN_GRU因子(行业IC表现,近一年)[42] * IC均值排名前五的行业及IC均值: * 传媒:0.1428[42] * 食品饮料:0.1319[42] * 商贸零售:0.1071[42] * 钢铁:0.1066[42] * (注:原文此处列举了四个行业,第五个行业名称缺失,IC均值为0.1065)[42] 3. GAN_GRU因子(行业多头组合表现,2026年4月当期)[2][45] * 超额收益排名前五的行业及超额收益: * 石油石化:8.84%[2][45] * 消费者服务:7.72%[2][45] * 农林牧渔:4.33%[2][45] * 建筑:4.18%[2][45] * 纺织服饰:3.86%[2][45] 4. GAN_GRU因子(行业多头组合表现,近一年月平均)[2][46] * 超额收益排名前五的行业及超额收益: * 消费者服务:2.08%[2][46] * 电力及公用事业:1.64%[2][46] * 房地产:1.59%[2][46] * 商贸零售:1.47%[2][46] * 建筑:1.21%[2][46]

机器学习因子选股月报(2026年5月)-20260429 - Reportify