——国海金工机器学习系列专题2:高波背景下的信息挖掘与风险优化

核心观点 - 报告针对传统深度学习因子在2024年9月以来高波动市场环境中暴露的局限性,提出了一个三层面的改进方案,旨在挖掘更纯净的Alpha并优化风险调整后收益[7][8][9] - 改进方案包括:扩展信息源至分钟频和集合竞价数据、采用精细化预测目标剥离风险暴露、以及引入因子降波改造作为组合优化工具[9] - 最终构建的合成因子在2015年至2026年4月期间表现出色,RankIC达0.168,ICIR为1.622,IC胜率95.1%,并在各宽基指数内展现出均衡且强劲的选股能力[1][39][42] - 基于合成因子构建的指数增强策略在不同市值指数上采用差异化方案,均实现了显著的超额收益和优异的回撤控制,其中沪深300、中证500和中证1000指增的年化超额收益率分别为9.56%、10.30%和14.92%[1][2][51][57][66] 输入特征 - 在原有128个日频融合特征的基础上,新增了分钟频量价数据与开盘集合竞价数据两类信息源,构建了5大输入特征集,形成了“日频截面+分钟时序+开盘订单簿”的多源互补结构[1][10] - 128个融合特征覆盖了收益率、Barra风格、基础量价、基本面、高频及技术指标共6大一级类别[1][11] - 分钟频量价特征构造了3类特征集,包括时间步长达610的组合量价(时序)特征,以及两种不同标准化顺序的15分钟频量价特征,以提供差异化的时序信息[14][15] - 基于Level2数据构造了12个开盘集合竞价因子,这些因子主要反映隔夜信息,呈现反转逻辑,且空头效应显著强于多头,因此在实际应用中仅保留其空头部分用于剔除标的[16][18] 模型与训练参数 - 为处理分钟频长序列数据并兼顾显存占用,报告统一采用PatchGRU模型架构,通过将长序列切片处理来平衡显存与建模精度[1][21] - 采用了4个不同长度的滚动训练回顾周期(短期2年、中期4年、长期6年、全历史)来集成不同时间尺度的市场风格信息[23] - 在预测目标端进行了精细化处理,引入了三类预测目标:涨跌幅市值行业中性化、基于走势相关性的相似股票相对排名、基于Barra风格余弦距离的相似股票相对排名,以剥离非Alpha风格暴露[1][24][26] - 结合3个预测周期(5天、10天、20天),最终从5个特征集生成了总计180个单因子[1][27] - 训练采用注重多头预测能力的WeightMSE损失函数,以更贴合指数增强策略的选股目标[28] 因子表现 - 单因子测试显示,128融合特征集表现最优,预测目标中基于走势相似性的相对排名(SimiliarPctCSZscore)RankIC整体更优,而基于Barra风格相似性的相对排名(SimiliarBarraCSZscore)ICIR更优,全历史训练周期的稳定性最佳[32][34] - 最终合成因子采用“日频-分钟频-集合竞价”三者等权合成,其中集合竞价因子仅保留空头部分,该合成因子全样本RankIC为0.168,ICIR为1.622,IC胜率达95.1%[1][37][39] - 合成因子在沪深300、中证500、中证1000、中证2000和万得全A成分股内的10分组多空年化收益率分别为55.0%、62%、90.6%、95.4%和99.3%,显示出全市值谱系的均衡选股能力[1][42] - 与前期研究相比,本期因子在风格暴露上不再过分偏向小市值与低Beta,但仍保留了低波动、低流动性、高账面市值比(BP)和高盈利(EP)等稳健风格特征[1][47] 指数增强表现 - 针对不同指数成分股特性,采用了差异化的因子使用方案:沪深300指增使用未叠加集合竞价剔除与降波改造的原始合成因子,而中证500和中证1000指增则使用了叠加了这两层风控处理的最终因子[1][50] - 沪深300指数增强策略(2017-2026.04)年化超额收益率达9.56%,跟踪误差2.97%,信息比率3.222,超额最大回撤仅2.63%,年均单边换手率4.478倍[1][51][56] - 中证500指数增强策略年化超额收益率为10.30%,跟踪误差3.91%,信息比率2.636,超额最大回撤4.23%[2][57] - 中证1000指数增强策略年化超额收益率为14.92%,跟踪误差3.99%,信息比率3.739,超额最大回撤4.59%[2][66] - 各策略在2024年9月后的高波动市场中仍展现出较强的Alpha获取能力和回撤控制水平,例如中证1000指增在2025年超额收益率大幅回升至21.77%,且超额最大回撤仅1.47%[53][61][67] 改造效果分析 - 集合竞价信息与因子降波改造的边际贡献因指数而异:对沪深300指增,原始因子方案表现最优,叠加改造反而会压缩Alpha空间;但对中证500和中证1000指增,两层改造能有效提升风险调整后收益[2][49][70] - 具体来看,集合竞价信息对中证500指增的信息比率、对中证1000指增的超额收益率(提升约1.1个百分点)形成正向增益;因子降波改造则可进一步抬升多数指增策略的信息比率[1][2][20] - 效果对比显示,中证500指增采用“PatchGRU180s+降波改造”方案后,在年化超额收益率(10.30% vs 11.26%)略有牺牲的情况下,显著降低了跟踪误差(3.91% vs 4.11%)和超额最大回撤(4.23% vs 5.16%),提升了超额卡玛比率(2.433 vs 2.184)[2][71]

——国海金工机器学习系列专题2:高波背景下的信息挖掘与风险优化 - Reportify