机器学习选股

搜索文档
机器学习因子选股月报(2025年10月)-20250930
西南证券· 2025-09-30 12:03
根据研报内容,总结如下: 量化模型与构建方式 1. **模型名称:GAN_GRU模型**[4][13] * **模型构建思路**:该模型是一个深度学习选股模型,其核心思路是利用生成式对抗网络(GAN)对量价时序特征进行增强处理,然后再利用门控循环单元(GRU)网络对处理后的时序特征进行编码,以预测股票的未来收益[4][13]。 * **模型具体构建过程**: * **基础特征**:模型输入为18个量价特征,包括日频特征(如开盘价、收盘价、成交量等)和月频特征(如月涨跌幅、月换手率等)[17][19]。 * **特征预处理**:每次采样的40天内,每个特征在时序上去极值并标准化;每个特征在个股层面上进行截面标准化[18]。 * **GAN特征生成**: * **生成器(G)**:采用LSTM模型,输入原始量价时序特征(形状为40*18),输出经处理后的量价时序特征(形状仍为40*18)[33][37]。其损失函数为: $$L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))]$$ 其中,\(z\) 是随机噪声,\(G(z)\) 是生成的数据,\(D(G(z))\) 是判别器判断生成数据为真的概率[24]。 * **判别器(D)**:采用CNN模型,用于区分真实量价特征和生成器生成的特征。其损失函数为: $$L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$$ 其中,\(x\) 是真实数据,\(D(x)\) 是判别器对真实数据的输出概率[27]。 * **训练过程**:生成器和判别器交替训练,直至模型收敛[29][30]。 * **GRU收益预测**:将GAN中生成器输出的增强后特征,输入到一个两层GRU网络(GRU(128, 128))中,后面再接一个多层感知机MLP(MLP(256, 64, 64))。模型最终输出的预测收益(pRet)即作为选股因子[22]。 * **训练与预测设置**: * 使用过去400天内的数据,每5个交易日采样一次,采样形状为40*18,用以预测未来20个交易日的累计收益[18]。 * 训练集与验证集比例为80%:20%[18]。 * 采用半年滚动训练,每年6月30日和12月31日进行模型训练,用于未来半年的预测[18]。 * 回测中,因子经过行业和市值中性化以及标准化处理[22]。 模型的回测效果 1. **GAN_GRU模型**,IC均值0.1136[41][42],ICIR(未年化)0.89[42],换手率0.83[42],年化收益率37.41%[42],年化波动率23.59%[42],信息比率(IR)1.59[42],最大回撤率27.29%[42],年化超额收益率22.58%[41][42] 量化因子与构建方式 1. **因子名称:GAN_GRU因子**[4][13] * **因子构建思路**:该因子是GAN_GRU模型输出的股票未来收益预测值,直接作为选股依据[4][13][22]。 * **因子具体构建过程**:因子构建过程与上述GAN_GRU模型的构建过程完全一致,因子值即为模型的最终输出(pRet)[22]。 因子的回测效果 1. **GAN_GRU因子**,IC均值0.1136[41][42],近期IC值(2025年9月)0.1053[41][42],近一年IC均值0.0982[41][42]
【广发金工】机器学习选股训练手册
广发金融工程研究· 2025-06-20 14:25
机器学习模型在量化选股中的应用 - 采用GBDT类树模型(LGBM/XGBoost/CatBoost)和神经网络模型(GRU/TCN/Transformer)进行量化选股训练测试,其中树模型适合处理手工构造的量价和基本面特征,神经网络擅长捕捉时序变化[1][2] - 特征筛选采用SHAP方案能有效减少特征数量并保证模型效果,特征中性化对因子改进不明显,整体标准化处理更有利于模型学习时序信息[2][28] - 沪深300指增策略年化超额10.03%,中证500指增年化超额8.41%,中证1000指增年化超额11.44%,显示机器学习因子在中小盘更具优势[3][61][62][63] 模型结构与特征处理 - GBDT模型通过残差迭代优化,每棵树学习前一棵树的残差,错分样本权重会逐步增大[10][11] - 神经网络结构中,GRU作为LSTM简化版通过更新门和重置门减少参数量,TCN采用空洞卷积实现指数级增长的历史数据回顾[12][13][18] - 特征类型选择显示:Alpha158量价特征适合两类模型,GFStyle基本面因子更适合树模型,原始量价数据神经网络表现更优[26][27] 损失函数与预测目标优化 - 排序学习损失函数中,结合NDCG指标的LambdaNDCG2和NeuralNDCG在多头部表现优异,与MSE因子相关性仅0.7-0.9[42][43][45] - 预测目标处理显示:截面标准化能排除市场beta干扰,使用超额收益率经CSRank处理后效果最佳[50][51] - 多周期预测目标合成可提升因子表现,沪深300指增策略信息比率从1.67提升至1.81,中证500年化超额从13.28%提升至14.28%[52][53][55] 策略构建细节 - 组合优化控制行业偏离、市值偏离等约束条件,采用月度调仓,交易成本假设双边千三[59][60] - 中证1000指增策略信息比率达2.09,超额最大回撤-7.95%,显著优于沪深300策略的2.23信息比和中证500策略的1.38信息比[63][61][62]