Workflow
生成式对抗神经网络
icon
搜索文档
机器学习因子选股月报(2025年12月)-20251128
西南证券· 2025-11-28 15:02
根据提供的研报内容,总结如下: 量化模型与构建方式 1. **模型名称:GAN_GRU模型**[4][13] * **模型构建思路**:该模型是一种深度学习选股模型,首先利用生成式对抗网络(GAN)对量价时序特征进行增强处理,然后再利用门控循环单元(GRU)网络对处理后的时序特征进行编码,最终输出股票的预测收益作为选股因子[4][13]。 * **模型具体构建过程**: * **基础特征**:模型使用18个量价特征,包括日频特征(如前收盘价、开盘价、收盘价、最高价、最低价、成交量、成交金额、涨跌幅、振幅、换手率、均价)和月频特征(如月成交金额、月涨跌幅、月振幅、月换手率、月收盘最高价、月收盘最低价、月日均换手率)[14][17][19]。 * **数据预处理与采样**:使用所有个股过去400天内的18个量价特征,每5个交易日进行一次特征采样。每次采样的特征形状为40天*18个特征,用以预测未来20个交易日的累计收益[18]。在时序上对每个特征进行去极值和标准化处理,并在个股截面上进行标准化处理[18]。训练集与验证集的比例为80%:20%[18]。 * **基础模型(GRU+MLP)**:构建一个包含两层GRU层(GRU(128, 128))和后续多层感知机(MLP(256, 64, 64))的神经网络。模型最终输出的预测收益(pRet)作为选股因子[22]。 * **GAN特征增强**:为了提升特征质量,引入GAN模型对原始量价时序特征(Input_Shape=(40,18))进行增强[33][37]。 * **生成器(G)**:采用长短期记忆网络(LSTM)作为生成器,以保留输入特征的时序性质。其目标是生成逼真的量价时序特征。生成器的损失函数为: $$L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))]$$ 其中,\(z\) 是随机噪声,\(G(z)\) 是生成器生成的数据,\(D(G(z))\) 是判别器判断生成数据为真实数据的概率[24][25]。 * **判别器(D)**:采用卷积神经网络(CNN)作为判别器,将量价时序特征视为二维图像进行处理。其目标是区分真实数据与生成数据。判别器的损失函数为: $$L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$$ 其中,\(x\) 是真实数据,\(D(x)\) 是判别器对真实数据的输出概率,\(D(G(z))\) 是判别器对生成数据的输出概率[27]。 * **训练过程**:生成器和判别器交替训练。先训练判别器,再训练生成器,循环迭代直至模型收敛[29][30][34]。 * **GAN_GRU整合**:将训练好的GAN模型中的生成器(G)用于处理原始量价时序特征,生成增强后的特征。然后将增强后的特征输入到前述的GRU+MLP基础模型中进行训练和预测[38]。 * **训练与预测设置**:采用半年滚动训练方式,每年6月30日和12月31日进行模型训练,用于未来半年的预测。回测采用月频调仓。选股范围为全A股,剔除ST股及上市不足半年的股票。训练超参数包括:batch_size为截面股票数量、优化器为Adam、学习速率为1e-4、损失函数为IC、早停轮数为10、最大训练轮数为50[15][18]。 量化因子与构建方式 1. **因子名称:GAN_GRU因子**[4][13] * **因子构建思路**:GAN_GRU因子是GAN_GRU模型最终输出的股票预测收益(pRet)[22]。该因子在用于测试前,会经过行业和市值中性化处理,并进行标准化[22]。 * **因子具体构建过程**:因子值直接来源于GAN_GRU模型的输出,即模型对每只股票未来20个交易日收益的预测值[18][22]。构建过程与上述GAN_GRU模型的构建过程完全一致。 模型的回测效果 1. **GAN_GRU模型**(基于其输出的因子进行回测,回测期间:2019年1月至2025年11月,月频调仓)[41][42] * IC均值:0.1131*** * ICIR(未年化):0.90 * 换手率:0.83 * 年化收益率:37.52% * 年化波动率:23.52% * 信息比率(IR):1.59 * 最大回撤率:27.29% * 年化超额收益率:23.14% 因子的回测效果 1. **GAN_GRU因子**[41][42] * 最新一期IC(截至2025年11月27日):0.1241*** * 近一年IC均值(截至2025年11月27日):0.0867*** * 近期行业IC表现(2025年10月当期,申万一级行业除综合):社会服务(0.2198***)、房地产(0.2027***)、钢铁(0.1774***)、非银金融(0.1754***)、煤炭(0.1537***)[42] * 近一年行业IC均值(申万一级行业除综合):非银金融(0.1401***)、钢铁(0.1367***)、商贸零售(0.1152***)、纺织服饰(0.1124***)、公用事业(0.1092***)[42] * 近期行业多头组合超额收益(2025年11月当期,相对行业指数):环保(7.24%)、机械设备(4.37%)、房地产(4.03%)、纺织服饰(3.89%)、建筑材料(2.91%)[2][45] * 近一年行业多头组合月平均超额收益(相对行业指数):建筑材料(2.15%)、房地产(1.97%)、社会服务(1.77%)、纺织服饰(1.71%)、商贸零售(1.62%)[2][46]
机器学习因子选股月报(2025年5月)-20250430
西南证券· 2025-04-30 16:14
量化模型与构建方式 1. **模型名称**:GAN_GRU模型 - **模型构建思路**:结合生成式对抗网络(GAN)和门控循环单元(GRU)的深度学习模型,用于挖掘量价时序特征并预测股票收益[9][10] - **模型具体构建过程**: 1. **数据预处理**:使用过去400天的18个量价特征(如收盘价、成交量等),每5天采样一次,形成40×18的时序特征矩阵[14] 2. **GAN部分**: - 生成器(LSTM):输入噪声生成模拟量价特征,损失函数为判别器对生成数据的判别概率: $$L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z))))]$$ [20] - 判别器(CNN):区分真实与生成数据,损失函数为: $$L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$$ [23] 3. **GRU部分**:将GAN生成的特征输入GRU(128,128)层,接MLP(256,64,64)输出预测收益pRet作为选股因子[18] 4. **训练方式**:半年滚动训练,行业市值中性化处理[14][18] - **模型评价**:通过对抗训练提升特征生成能力,保留时序特性,适配金融数据的高噪声特点[29][33] --- 模型的回测效果 1. **GAN_GRU模型** - **IC均值**:11.73%(全A股,2019-2025)[37] - **ICIR**:0.90[38] - **年化超额收益率**:24.89%[38] - **信息比率(IR)**:1.66[38] - **最大回撤**:27.29%[38] - **最新一期IC**:0.22%(2025年4月)[37] - **行业表现**: - 当期IC最高行业:银行(33.46%)、钢铁(30.85%)[39] - 近一年超额收益最高行业:家用电器(5.56%)、石油石化(5.39%)[41] --- 量化因子与构建方式 1. **因子名称**:GAN_GRU因子 - **因子构建思路**:基于GAN_GRU模型输出的预测收益pRet,经行业市值中性化后作为选股因子[18][37] - **因子具体构建过程**: 1. 输入原始量价时序特征(40天×18维)[14] 2. 通过GAN生成增强特征,GRU编码后输出预测收益[34] 3. 截面标准化并剔除ST股及上市不足半年的股票[14] --- 因子的回测效果 1. **GAN_GRU因子** - **多头组合年化收益**:36.06%[38] - **年化波动率**:23.80%[38] - **换手率**:0.83[38] - **近一年IC均值**:11.44%[37] - **行业多头超额收益**:纺织服饰(6.78%)、基础化工(5.61%)[41] --- 多头组合示例(2025年4月) - **前十个股**:国网英大、海容冷链、陕西能源等[44][46] - **行业排名第一个股**:非银金融(国网英大)、机械设备(海容冷链)[44]