Workflow
机器学习选股
icon
搜索文档
指数成份股定期调整事件系列报告:2025年12月指数成份股调整预测及事件效应跟踪
招商证券· 2025-11-14 21:52
量化模型与构建方式 1. **模型名称:随机森林选股模型**[13] **模型构建思路**:考虑到影响样本股受指数调整事件冲击的因素具有多维和非线性特征,采用随机森林模型来预测成分股调整结果发布后相关个股的超额收益[13] **模型具体构建过程**:模型的特征选择基于被动指数基金调整持仓引发事件冲击的逻辑,主要从四个维度选取特征值[13]: * 被动资金持有规模变动 * 股票交易流动性 * 公司市值规模 * 股票价格趋势 使用这些特征训练随机森林模型,以预测公告日后个股的超额收益 模型的回测效果 1. **随机森林选股模型**(样本外,2020年12月至2025年6月)[17][24] * 在剔除样本股中,模型能有效区分股票受事件影响的程度,分组收益差距在公告日后约20个交易日(接近指数调整实施日)变得显著[24] 量化因子与构建方式 1. **因子名称:纳入效应因子**[14][17] **因子构建思路**:捕捉股票被纳入指数后,因被动资金调仓带来的短期正向价格冲击[14][17] **因子具体构建过程**:计算股票在指数调整公告日后特定窗口内的超额收益。例如,公告日后10日内的超额收益(相对于其新纳入的指数)[17] **因子评价**:在样本外期间,纳入效应仍然存在,但剔除效应减弱[17][24] 2. **因子名称:剔除效应因子**[14][24] **因子构建思路**:捕捉股票被剔除指数后,可能面临的短期负向价格冲击[14][24] **因子具体构建过程**:计算股票在指数调整公告日后特定窗口内的超额收益。例如,公告日后15日内的超额收益(相对于其被剔除的指数)[14][24] **因子评价**:在近期的样本外检验中,剔除效应已不显著[24] 因子的回测效果 1. **纳入效应因子**(样本外,2020年12月至2025年6月)[17][23] * **T+10超额收益**:纳入沪深300股票平均为2.53%(2024年12月为2.31%);纳入中证500股票平均为1.01%(2025年6月为1.32%)[17][23] * **T+20超额收益**:纳入沪深300股票平均为0.91%;纳入中证500股票平均为0.65%[23] * **T+30超额收益**:纳入沪深300股票平均为0.74%;纳入中证500股票平均为0.57%[23] * **T+40超额收益**:纳入沪深300股票平均为0.24%;纳入中证500股票平均为-0.29%[23] * **T+50超额收益**:纳入沪深300股票平均为-1.02%;纳入中证500股票平均为-0.64%[23] * **T+60超额收益**:纳入沪深300股票平均为-0.31%;纳入中证500股票平均为-0.50%[23] 2. **剔除效应因子**(样本外,2020年12月至2025年6月)[24][31] * **T+10超额收益**:剔除沪深300股票平均为-0.25%;剔除中证500股票平均为-0.11%[31] * **T+20超额收益**:剔除沪深300股票平均为-0.99%;剔除中证500股票平均为-0.06%[31] * **T+30超额收益**:剔除沪深300股票平均为-1.82%;剔除中证500股票平均为0.32%[31] * **T+40超额收益**:剔除沪深300股票平均为-1.57%;剔除中证500股票平均为1.14%[31] * **T+50超额收益**:剔除沪深300股票平均为-1.69%;剔除中证500股票平均为1.19%[31] * **T+60超额收益**:剔除沪深300股票平均为-0.23%;剔除中证500股票平均为0.71%[31]
机器学习因子选股月报(2025年10月)-20250930
西南证券· 2025-09-30 12:03
根据研报内容,总结如下: 量化模型与构建方式 1. **模型名称:GAN_GRU模型**[4][13] * **模型构建思路**:该模型是一个深度学习选股模型,其核心思路是利用生成式对抗网络(GAN)对量价时序特征进行增强处理,然后再利用门控循环单元(GRU)网络对处理后的时序特征进行编码,以预测股票的未来收益[4][13]。 * **模型具体构建过程**: * **基础特征**:模型输入为18个量价特征,包括日频特征(如开盘价、收盘价、成交量等)和月频特征(如月涨跌幅、月换手率等)[17][19]。 * **特征预处理**:每次采样的40天内,每个特征在时序上去极值并标准化;每个特征在个股层面上进行截面标准化[18]。 * **GAN特征生成**: * **生成器(G)**:采用LSTM模型,输入原始量价时序特征(形状为40*18),输出经处理后的量价时序特征(形状仍为40*18)[33][37]。其损失函数为: $$L_{G}\,=\,-\mathbb{E}_{z\sim P_{z}(z)}[\log(D(G(z)))]$$ 其中,\(z\) 是随机噪声,\(G(z)\) 是生成的数据,\(D(G(z))\) 是判别器判断生成数据为真的概率[24]。 * **判别器(D)**:采用CNN模型,用于区分真实量价特征和生成器生成的特征。其损失函数为: $$L_{D}=-\mathbb{E}_{x\sim P_{d a t a}(x)}[\log\!D(x)]-\mathbb{E}_{z\sim P_{z}(z)}[\log(1-D(G(z)))]$$ 其中,\(x\) 是真实数据,\(D(x)\) 是判别器对真实数据的输出概率[27]。 * **训练过程**:生成器和判别器交替训练,直至模型收敛[29][30]。 * **GRU收益预测**:将GAN中生成器输出的增强后特征,输入到一个两层GRU网络(GRU(128, 128))中,后面再接一个多层感知机MLP(MLP(256, 64, 64))。模型最终输出的预测收益(pRet)即作为选股因子[22]。 * **训练与预测设置**: * 使用过去400天内的数据,每5个交易日采样一次,采样形状为40*18,用以预测未来20个交易日的累计收益[18]。 * 训练集与验证集比例为80%:20%[18]。 * 采用半年滚动训练,每年6月30日和12月31日进行模型训练,用于未来半年的预测[18]。 * 回测中,因子经过行业和市值中性化以及标准化处理[22]。 模型的回测效果 1. **GAN_GRU模型**,IC均值0.1136[41][42],ICIR(未年化)0.89[42],换手率0.83[42],年化收益率37.41%[42],年化波动率23.59%[42],信息比率(IR)1.59[42],最大回撤率27.29%[42],年化超额收益率22.58%[41][42] 量化因子与构建方式 1. **因子名称:GAN_GRU因子**[4][13] * **因子构建思路**:该因子是GAN_GRU模型输出的股票未来收益预测值,直接作为选股依据[4][13][22]。 * **因子具体构建过程**:因子构建过程与上述GAN_GRU模型的构建过程完全一致,因子值即为模型的最终输出(pRet)[22]。 因子的回测效果 1. **GAN_GRU因子**,IC均值0.1136[41][42],近期IC值(2025年9月)0.1053[41][42],近一年IC均值0.0982[41][42]
【广发金工】机器学习选股训练手册
机器学习模型在量化选股中的应用 - 采用GBDT类树模型(LGBM/XGBoost/CatBoost)和神经网络模型(GRU/TCN/Transformer)进行量化选股训练测试,其中树模型适合处理手工构造的量价和基本面特征,神经网络擅长捕捉时序变化[1][2] - 特征筛选采用SHAP方案能有效减少特征数量并保证模型效果,特征中性化对因子改进不明显,整体标准化处理更有利于模型学习时序信息[2][28] - 沪深300指增策略年化超额10.03%,中证500指增年化超额8.41%,中证1000指增年化超额11.44%,显示机器学习因子在中小盘更具优势[3][61][62][63] 模型结构与特征处理 - GBDT模型通过残差迭代优化,每棵树学习前一棵树的残差,错分样本权重会逐步增大[10][11] - 神经网络结构中,GRU作为LSTM简化版通过更新门和重置门减少参数量,TCN采用空洞卷积实现指数级增长的历史数据回顾[12][13][18] - 特征类型选择显示:Alpha158量价特征适合两类模型,GFStyle基本面因子更适合树模型,原始量价数据神经网络表现更优[26][27] 损失函数与预测目标优化 - 排序学习损失函数中,结合NDCG指标的LambdaNDCG2和NeuralNDCG在多头部表现优异,与MSE因子相关性仅0.7-0.9[42][43][45] - 预测目标处理显示:截面标准化能排除市场beta干扰,使用超额收益率经CSRank处理后效果最佳[50][51] - 多周期预测目标合成可提升因子表现,沪深300指增策略信息比率从1.67提升至1.81,中证500年化超额从13.28%提升至14.28%[52][53][55] 策略构建细节 - 组合优化控制行业偏离、市值偏离等约束条件,采用月度调仓,交易成本假设双边千三[59][60] - 中证1000指增策略信息比率达2.09,超额最大回撤-7.95%,显著优于沪深300策略的2.23信息比和中证500策略的1.38信息比[63][61][62]