机器学习因子选股月报(2026年3月)-20260226
西南证券·2026-02-26 14:25

量化模型与构建方式 1. 模型名称:GAN_GRU模型[4][13] * 模型构建思路:该模型是一个深度学习选股模型,其核心思路是首先利用生成式对抗网络(GAN)对量价时序特征进行处理和增强,然后利用GRU模型对处理后的时序特征进行编码,最终输出股票的预测收益作为选股因子[4][13]。 * 模型具体构建过程: 1. 数据准备与特征:使用18个量价特征,包括日频特征(如前收盘价、开盘价、收盘价、最高价、最低价、成交量、成交金额、涨跌幅、振幅、换手率、均价)和月频特征(如月成交金额、月涨跌幅、月振幅、月换手率、月收盘最高价、月收盘最低价、月日均换手率)[17][19]。选取所有股票,剔除ST及上市不足半年的股票[18]。 2. 特征采样与处理:对于每只股票,取过去400天内的18个量价特征,每5个交易日进行一次采样,采样形状为4018(即过去40天的特征)[18]。每次采样的40天内,每个特征在时序上进行去极值和标准化处理,同时每个特征在个股截面上进行标准化处理[18]。 3. 标签设定:利用过去40天的量价特征来预测未来20个交易日的累计收益[18]。 4. GAN特征生成:为了增强量价时序特征,构建了一个GAN模型。其中,生成器(G)采用能够保留时序性质的LSTM模型,输入原始量价时序特征(形状为(40,18)),输出处理后的特征(形状仍为(40,18))[33][37]。判别器(D)采用适用于二维图像处理的CNN模型,用于区分真实特征与生成特征[33]。GAN的训练过程是生成器和判别器交替对抗训练,其损失函数分别为: * 生成器损失函数:LG=EzPz(z)[log(D(G(z)))]L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))] 其中,(z)为随机噪声,(G(z))为生成数据,(D(G(z)))为判别器判断生成数据为真的概率[24]。 * 判别器损失函数:LD=ExPdata(x)[log ⁣D(x)]EzPz(z)[log(1D(G(z)))]L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))] 其中,(x)为真实数据,(D(x))为判别器判断真实数据为真的概率[27]。 5. GRU收益预测:将经过GAN生成器处理后的特征(或原始特征?报告指出GAN_GRU因子是利用GAN处理后再用GRU编码,但具体流程图中可能包含原始特征与生成特征的结合)输入到一个两层GRU网络(GRU(128, 128))中进行时序特征编码[14][22]。随后连接一个多层感知机(MLP(256, 64, 64))[22]。模型最终输出预测收益(pRet)作为选股因子[22]。 6. 训练与预测:采用半年滚动训练方式,训练时间点为每年的6月30日及12月31日,用训练好的模型预测未来半年的收益[18]。训练集与验证集比例为80%:20%[18]。训练时使用Adam优化器,学习速率为1e-4,损失函数为IC,设置早停轮数为10,最大训练轮数为50[18]。 * 模型评价:该模型结合了GAN的数据增强能力和GRU的时序建模能力,旨在挖掘量价数据中更深层次的时序特征以预测股票收益。 2. 因子名称:GAN_GRU因子[4][13] * 因子构建思路:GAN_GRU因子即为GAN_GRU模型最终输出的股票预测收益(pRet)[22]。该因子在用于选股测试前,会经过行业和市值中性化处理,并进行标准化[22]。 * 因子具体构建过程: 1. 运行上述GAN_GRU模型,获得每只股票在调仓时点的预测收益值。 2. 对得到的原始因子值进行行业和市值中性化处理。 3. 对中性化后的因子值进行标准化处理,得到最终的GAN_GRU因子[22]。 模型的回测效果 (注:报告主要提供了GAN_GRU因子的回测效果,未单独提供GAN_GRU模型的回测效果指标。模型效果通过其输出的因子表现来体现。) 量化因子与构建方式 (注:本报告核心因子即为GAN_GRU因子,其构建方式已包含在“GAN_GRU模型”的构建过程中,并作为单独因子列出如上。) 因子的回测效果 1. GAN_GRU因子 * 全市场表现(2019年2月至2026年2月,月频调仓): * IC均值:0.1096**[41][42] * ICIR(未年化):0.87[42] * 年化收益率:38.13%[42] * 年化波动率:23.18%[42] * 信息比率(IR):1.64[42] * 最大回撤率:27.29%[42] * 年化超额收益率:22.32%[41][42] * 换手率:0.82X[42] * 近期表现(截至2026年2月25日): * 最新一期IC:-0.0105***[41][42] * 近一年IC均值:0.0517***[41][42] * 行业IC表现(截至2026年2月): * 当月IC排名前五行业:电力及公用事业 (0.1257***)、商贸零售 (0.1196***)、房地产 (0.1151***)、建筑 (0.1130***)、基础化工 (0.1063***)[4][42] * 近一年IC均值排名前五行业:钢铁 (0.1404***)、计算机 (0.1175***)、传媒 (0.1132***)、商贸零售 (0.1014***)、食品饮料 (0.0989***)[4][42] * 行业多头组合表现: * 当月超额收益前五行业(截至2026年2月25日):石油石化 (7.91%)、通信 (3.11%)、电子 (3.06%)、有色金属 (2.78%)、计算机 (2.78%)[2][45] * 近一年月均超额收益前五行业:房地产 (3.83%)、商贸零售 (2.04%)、汽车 (1.93%)、建筑 (1.50%)、消费者服务 (1.49%)[2][46] * 近一年未跑赢行业指数的行业数量:7个(交通运输、建材、煤炭、非银金融、传媒、有色、通信)[2][46]