机器学习模型在量化选股中的应用 - 采用GBDT类树模型(LGBM/XGBoost/CatBoost)和神经网络模型(GRU/TCN/Transformer)进行量化选股训练测试,其中树模型适合处理手工构造的量价和基本面特征,神经网络擅长捕捉时序变化[1][2] - 特征筛选采用SHAP方案能有效减少特征数量并保证模型效果,特征中性化对因子改进不明显,整体标准化处理更有利于模型学习时序信息[2][28] - 沪深300指增策略年化超额10.03%,中证500指增年化超额8.41%,中证1000指增年化超额11.44%,显示机器学习因子在中小盘更具优势[3][61][62][63] 模型结构与特征处理 - GBDT模型通过残差迭代优化,每棵树学习前一棵树的残差,错分样本权重会逐步增大[10][11] - 神经网络结构中,GRU作为LSTM简化版通过更新门和重置门减少参数量,TCN采用空洞卷积实现指数级增长的历史数据回顾[12][13][18] - 特征类型选择显示:Alpha158量价特征适合两类模型,GFStyle基本面因子更适合树模型,原始量价数据神经网络表现更优[26][27] 损失函数与预测目标优化 - 排序学习损失函数中,结合NDCG指标的LambdaNDCG2和NeuralNDCG在多头部表现优异,与MSE因子相关性仅0.7-0.9[42][43][45] - 预测目标处理显示:截面标准化能排除市场beta干扰,使用超额收益率经CSRank处理后效果最佳[50][51] - 多周期预测目标合成可提升因子表现,沪深300指增策略信息比率从1.67提升至1.81,中证500年化超额从13.28%提升至14.28%[52][53][55] 策略构建细节 - 组合优化控制行业偏离、市值偏离等约束条件,采用月度调仓,交易成本假设双边千三[59][60] - 中证1000指增策略信息比率达2.09,超额最大回撤-7.95%,显著优于沪深300策略的2.23信息比和中证500策略的1.38信息比[63][61][62]
【广发金工】机器学习选股训练手册