机器学习因子选股月报(2025年12月)-20251128
西南证券·2025-11-28 15:02

根据提供的研报内容,总结如下: 量化模型与构建方式 1. 模型名称:GAN_GRU模型[4][13] * 模型构建思路:该模型是一种深度学习选股模型,首先利用生成式对抗网络(GAN)对量价时序特征进行增强处理,然后再利用门控循环单元(GRU)网络对处理后的时序特征进行编码,最终输出股票的预测收益作为选股因子[4][13]。 * 模型具体构建过程: * 基础特征:模型使用18个量价特征,包括日频特征(如前收盘价、开盘价、收盘价、最高价、最低价、成交量、成交金额、涨跌幅、振幅、换手率、均价)和月频特征(如月成交金额、月涨跌幅、月振幅、月换手率、月收盘最高价、月收盘最低价、月日均换手率)[14][17][19]。 * 数据预处理与采样:使用所有个股过去400天内的18个量价特征,每5个交易日进行一次特征采样。每次采样的特征形状为40天18个特征,用以预测未来20个交易日的累计收益[18]。在时序上对每个特征进行去极值和标准化处理,并在个股截面上进行标准化处理[18]。训练集与验证集的比例为80%:20%[18]。 * 基础模型(GRU+MLP):构建一个包含两层GRU层(GRU(128, 128))和后续多层感知机(MLP(256, 64, 64))的神经网络。模型最终输出的预测收益(pRet)作为选股因子[22]。 * GAN特征增强:为了提升特征质量,引入GAN模型对原始量价时序特征(Input_Shape=(40,18))进行增强[33][37]。 * 生成器(G):采用长短期记忆网络(LSTM)作为生成器,以保留输入特征的时序性质。其目标是生成逼真的量价时序特征。生成器的损失函数为: LG=EzPz(z)[log(D(G(z)))]L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))] 其中,(z) 是随机噪声,(G(z)) 是生成器生成的数据,(D(G(z))) 是判别器判断生成数据为真实数据的概率[24][25]。 * 判别器(D):采用卷积神经网络(CNN)作为判别器,将量价时序特征视为二维图像进行处理。其目标是区分真实数据与生成数据。判别器的损失函数为: LD=ExPdata(x)[log ⁣D(x)]EzPz(z)[log(1D(G(z)))]L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))] 其中,(x) 是真实数据,(D(x)) 是判别器对真实数据的输出概率,(D(G(z))) 是判别器对生成数据的输出概率[27]。 * 训练过程:生成器和判别器交替训练。先训练判别器,再训练生成器,循环迭代直至模型收敛[29][30][34]。 * GAN_GRU整合:将训练好的GAN模型中的生成器(G)用于处理原始量价时序特征,生成增强后的特征。然后将增强后的特征输入到前述的GRU+MLP基础模型中进行训练和预测[38]。 * 训练与预测设置:采用半年滚动训练方式,每年6月30日和12月31日进行模型训练,用于未来半年的预测。回测采用月频调仓。选股范围为全A股,剔除ST股及上市不足半年的股票。训练超参数包括:batch_size为截面股票数量、优化器为Adam、学习速率为1e-4、损失函数为IC、早停轮数为10、最大训练轮数为50[15][18]。 量化因子与构建方式 1. 因子名称:GAN_GRU因子[4][13] * 因子构建思路:GAN_GRU因子是GAN_GRU模型最终输出的股票预测收益(pRet)[22]。该因子在用于测试前,会经过行业和市值中性化处理,并进行标准化[22]。 * 因子具体构建过程:因子值直接来源于GAN_GRU模型的输出,即模型对每只股票未来20个交易日收益的预测值[18][22]。构建过程与上述GAN_GRU模型的构建过程完全一致。 模型的回测效果 1. GAN_GRU模型(基于其输出的因子进行回测,回测期间:2019年1月至2025年11月,月频调仓)[41][42] * IC均值:0.1131** * ICIR(未年化):0.90 * 换手率:0.83 * 年化收益率:37.52% * 年化波动率:23.52% * 信息比率(IR):1.59 * 最大回撤率:27.29% * 年化超额收益率:23.14% 因子的回测效果 1. GAN_GRU因子[41][42] * 最新一期IC(截至2025年11月27日):0.1241*** * 近一年IC均值(截至2025年11月27日):0.0867*** * 近期行业IC表现(2025年10月当期,申万一级行业除综合):社会服务(0.2198***)、房地产(0.2027***)、钢铁(0.1774***)、非银金融(0.1754***)、煤炭(0.1537***)[42] * 近一年行业IC均值(申万一级行业除综合):非银金融(0.1401***)、钢铁(0.1367***)、商贸零售(0.1152***)、纺织服饰(0.1124***)、公用事业(0.1092***)[42] * 近期行业多头组合超额收益(2025年11月当期,相对行业指数):环保(7.24%)、机械设备(4.37%)、房地产(4.03%)、纺织服饰(3.89%)、建筑材料(2.91%)[2][45] * 近一年行业多头组合月平均超额收益(相对行业指数):建筑材料(2.15%)、房地产(1.97%)、社会服务(1.77%)、纺织服饰(1.71%)、商贸零售(1.62%)[2][46]