机器学习因子选股月报（2026年4月）-20260331

量化模型与构建方式 1. 模型名称：GAN_GRU模型[4][13] * 模型构建思路：利用生成式对抗网络（GAN）对量价时序特征进行增强处理，再使用门控循环单元（GRU）模型对处理后的时序特征进行编码，以预测股票未来收益，并将预测值作为选股因子[4][13]。 * 模型具体构建过程： 1. 数据准备：选取所有个股过去400天内的18个量价特征（包括日频和月频特征，如收盘价、开盘价、成交量、换手率等）[14][17][19]。每5个交易日进行一次特征采样，采样形状为4018（即过去40天的特征）[18]。 2. 数据处理：对每次采样的40天内，每个特征在时序上进行去极值+标准化处理；同时，每个特征在个股截面上进行标准化处理[18]。 3. GAN特征生成： * 生成器（G）：采用LSTM模型，输入原始量价时序特征（形状为(40, 18)），输出经处理后的量价时序特征（形状仍为(40, 18)）[33][37]。生成器的目标是让判别器无法区分其生成的数据与真实数据，其损失函数为： $L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))]$ 其中，(z) 表示随机噪声，(G(z)) 表示生成器生成的数据，(D(G(z))) 表示判别器判断生成数据为真实数据的概率[24][25]。 * 判别器（D）：采用卷积神经网络（CNN）模型，用于判断输入数据是真实数据还是生成器生成的假数据[33]。其损失函数为： $L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$ 其中，(x) 是真实数据，(D(x)) 是判别器对真实数据的输出概率[27]。 * 训练过程：生成器和判别器交替训练，直至生成器能生成足以欺骗判别器的逼真特征[29][30]。 4. GRU收益预测：将GAN生成的增强特征输入一个两层GRU网络（GRU(128, 128)），后接一个多层感知机（MLP(256, 64, 64)），模型最终输出为对未来20个交易日累计收益的预测值 (pRet)，该值即作为GAN_GRU选股因子[22]。 5. 模型训练与更新：采用半年滚动训练方式，每年6月30日及12月31日训练模型，并用于未来半年的预测[18]。训练时使用80%的数据作为训练集，20%作为验证集，优化器为Adam，学习率为1e-4，损失函数为IC[18]。 6. 股票与样本筛选：选取全市场股票，剔除ST及上市不足半年的股票；训练时剔除标签（label）为空值的样本[18]。量化因子与构建方式 1. 因子名称：GAN_GRU因子[4][13] * 因子构建思路：基于GAN_GRU模型输出的股票未来收益预测值 (pRet) 构建选股因子[22]。 * 因子具体构建过程： 1. 运行GAN_GRU模型，得到每只股票的未来收益预测值 (pRet)[22]。 2. 对原始因子值进行行业和市值中性化处理，以剥离行业和市值风格的影响[22]。 3. 对中性化后的因子值进行标准化处理[22]。 * 因子评价：该因子是一个结合了生成式对抗网络特征增强和循环神经网络时序建模的深度学习因子，旨在更有效地挖掘量价数据中的时序预测信息[4][13]。模型的回测效果（本报告主要对GAN_GRU因子进行回测，未单独提供基础GRU+MLP模型的回测效果指标。）因子的回测效果 1. GAN_GRU因子（全A股，月频调仓，2019年2月至2026年3月）[41][42] * IC均值：0.1095** * ICIR（未年化）：0.88 * 年化收益率：36.03% * 年化波动率：21.87% * 信息比率（IR）：1.55 * 最大回撤率：27.29% * 年化超额收益率：21.87% * 换手率：0.82X * 近期IC（2026年3月27日）：0.1008*** * 近一年IC均值：0.0514***