量化模型与构建方式 1. 模型名称:因子挖掘2.0模型框架(GRU+GAT_SA加权_考虑财务)[2][18] * 模型构建思路:在1.0版本(LSTM+MLP)基础上进行升级,通过GRU网络挖掘时序信息,通过GAT网络挖掘股票间的截面关联信息,并使用自注意力(SA)加权方式融合不同关联网络(行业、财务、资金流)的GAT输出,最后拼接财务指标以增强多头表现。[2][18][24][25][32][35] * 模型具体构建过程: 1. 输入:使用不同的特征集(如PV、G、C等)作为模型输入。[19] 2. 时序信息提取:输入特征首先通过GRU(门控循环单元)网络,提取时间序列上的隐藏信息。[24] 3. 截面信息提取:将GRU的输出作为GAT(图注意力网络)的输入。GAT网络根据预定义的股票关联图(如行业关联、财务关联、资金流关联)聚合邻居节点的信息。[25][27] 4. 多网络融合:对于三种不同关联网络(行业、财务、资金流)的GAT输出,不采用简单等权合成,而是引入一个可学习的MLP层进行SA加权。该MLP层的输入为过去20日的Barra风格因子收益,输出经Softmax归一化后得到各网络的动态权重。[7][32] 5. 财务信息融合:将SA加权融合后的GAT输出,与截面标准化后的财务指标(9大类,含原始值、同比、环比)进行拼接。[35][36][37] 6. 输出:拼接后的特征通过一个全连接层(MLP),输出最终的因子预测值。[35] 2. 模型名称:收益率牵引因子模型[27] * 模型构建思路:基于资金流关联网络,通过聚合同状态股票集的收益率信息来构建选股因子,是GAT网络思想的雏形。[27] * 模型具体构建过程: 1. 构建关联状态:在每个交易日,回看过去20个交易日,根据小单净流入强度将股票分为20种状态。[27] 2. 计算同状态股票集收益:对于股票A,找到与其处于相同状态的所有股票,计算该股票集合的收益平均值。[27] 3. 计算因子值:将股票A自身的收益对同状态股票集收益平均值进行回归,所得的残差即为股票A的因子值。[27] 3. 因子名称:ML_C(综合深度学习因子)[7][69] * 因子构建思路:将多个单一特征集(PV, G, C, HF, DP)以及二维度交叉挖掘出的因子,按照其多头收益表现进行加权合成,得到最终的综合因子。[69] * 因子具体构建过程: 1. 单一维度挖掘:使用“GRU+GAT_SA加权_考虑财务”模型,分别对PV、G、C、HF、DP五个特征集进行训练,得到五个基础因子。[68] 2. 二维度交叉挖掘:尝试将任意两个特征维度放在一起进行联合挖掘,维度间使用SA加权,得到一系列二维因子。[69] 3. 合成:将步骤1得到的基础因子和步骤2得到的二维因子,按照各自的多头收益表现进行加权,合成最终的ML_C因子。[69] 4. 因子名称:G(技术指标和K线状态变量)[7][19][45] * 因子构建思路:从图形识别思路出发,基于基础行情(开、高、低、收、成交量)计算技术指标和合成K线,并通过状态变量编码进行特征拓展。[45] * 因子具体构建过程:报告未提供具体计算的技术指标列表和K线状态变量编码公式,但指出其转化思路来源于《深度学习赋能技术分析》报告。[45][46] 5. 因子名称:C(大小单资金流)[7][19][52] * 因子构建思路:基于大小单资金流原始数据,通过计算衍生指标和状态变量来增强特征。[52][54] * 因子具体构建过程: 1. 原始数据:使用AshareMoneyFlow基础表中的资金流数据。[52] 2. 衍生指标:计算如资金流过去250日的分位点等特征。[54] 3. 状态变量转化:针对每类资金流(如买入、卖出、主动买入、主动卖出),每日判断四个问题:净买入>0?主动净买入>0?主动买入比例>0.5?主动卖出比例>0.5?将答案转化为状态变量。[54][55] 6. 因子名称:HF(高频特征)[7][19][59] * 因子构建思路:将高频数据降维至日度特征进行挖掘。[59] * 因子具体构建过程:输入特征包括两部分:1) 分钟收益率和分钟成交量相关衍生指标;2) 逐笔成交数据降频至分钟频后计算的相关衍生指标,具体指标来源于前期相关报告。[59] 7. 因子名称:DP(遗传算法有效因子)[7][19][60] * 因子构建思路:将前期通过遗传算法挖掘出的有效因子(Alpha185因子集)作为特征,输入深度学习模型进行“再掘金”。[60][65] * 因子具体构建过程:从Alpha185因子集中,筛选在2017年之前表现较好且缺失度较低的48个因子作为输入特征。在挖掘时,由于输入已是有效因子,不再使用时序网络(GRU),而直接采用GAT网络进行截面信息挖掘。[60][65] 8. 模型名称:行业轮动因子合成模型[89][91][92] * 模型构建思路:采用自下而上的方法,将个股因子通过多种方式聚合至行业层面,构建行业轮动因子。[89] * 模型具体构建过程: 1. 聚合方法:对个股因子采用5种聚合方式生成行业因子:(1)因子值均值(等权);(2)因子值市值加权;(3)因子值分域后等权(前1/3标1,后2/3标-1,其余0,取均值);(4)因子值分域后市值加权;(5)选取因子值前20%的股票,统计其数量占行业股票总数的比例。[89] 2. 因子选取与合成:选取“综合因子ML_C”等5个特定因子在特定聚合方式下生成的行业轮动因子,进行等权合成,得到最终的行业轮动因子。[91][92] 9. 模型名称:强化学习风格优选模型[5][76][77] * 模型构建思路:针对深度学习因子风格倾向性强的问题,结合强化学习进行风格轮动,实现Alpha与Beta的协同优选,以降低极端市场环境下的回撤。[5][76] * 模型具体构建过程:基于《深度学习赋能风格轮动和多策略融合》中的方案,将风格轮动转化为截面标的优选问题,使用强化学习SAC方法进行日度决策。在调仓日,汇总过去20个交易日的风格action值进行排序,选取排名靠前的10种风格。[77][80] 模型的回测效果 测试区间均为2020年1月1日至2025年11月28日,双周频调仓,因子经市值行业中性化处理。多头超额基准:全市场为中证全指,宽基内为对应宽基指数。[24] 1. GRU+GAT_SA加权_考虑财务模型 (基于PV特征集),10日RankIC 11.7%,年化RankICIR 5.7,多空对冲年化收益 58.9%,多空对冲信息比率 5.1,多空对冲最大回撤 -4.8%,多空对冲胜率 82.7%,多头超额年化收益 24.1%,多头超额信息比率 3.0,多头超额最大回撤 -5.4%,多头超额胜率 72.0%。[39][44] 2. GRU+GAT_SA加权_考虑财务模型 (基于G特征集),10日RankIC 11.0%,年化RankICIR 5.8,多空对冲年化收益 59.9%,多空对冲信息比率 6.2,多空对冲最大回撤 -2.5%,多空对冲胜率 82.7%,多头超额年化收益 23.3%,多头超额信息比率 3.3,多头超额最大回撤 -5.4%,多头超额胜率 75.3%。[47][49] 3. GRU+GAT_SA加权_考虑财务模型 (基于C特征集),10日RankIC 10.6%,年化RankICIR 5.1,多空对冲年化收益 56.4%,多空对冲信息比率 5.2,多空对冲最大回撤 -4.4%,多空对冲胜率 81.3%,多头超额年化收益 19.5%,多头超额信息比率 2.8,多头超额最大回撤 -5.6%,多头超额胜率 70.0%。[56][58] 4. GRU+GAT_SA加权_考虑财务模型 (基于HF特征集),10日RankIC 11.6%,年化RankICIR 5.9,多空对冲年化收益 57.5%,多空对冲信息比率 5.8,多空对冲最大回撤 -5.2%,多空对冲胜率 82.0%,多头超额年化收益 19.1%,多头超额信息比率 2.6,多头超额最大回撤 -7.4%,多头超额胜率 73.3%。[59][62] 5. GRU+GAT_SA加权_考虑财务模型 (基于DP特征集),10日RankIC 11.4%,年化RankICIR 6.2,多空对冲年化收益 49.2%,多空对冲信息比率 4.4,多空对冲最大回撤 -4.7%,多空对冲胜率 76.0%,多头超额年化收益 20.3%,多头超额信息比率 2.8,多头超额最大回撤 -4.6%,多头超额胜率 70.0%。[65][66] 6. PV和G因子合成 (基于GRU+GAT_SA加权_考虑财务模型),全市场10日RankIC 12.4%,年化RankICIR 6.0,多空对冲年化收益 66.7%,多空对冲信息比率 6.0,多空对冲最大回撤 -4.5%,多空对冲胜率 82.7%,多头超额年化收益 24.5%,多头超额信息比率 3.3,多头超额最大回撤 -3.9%,多头超额胜率 75.3%。[50][51] 7. ML_C (综合深度学习因子),全市场10日RankIC 14.2%,年化RankICIR 6.3,多空对冲年化收益 72.7%,多空对冲信息比率 6.1,多空对冲最大回撤 -4.8%,多空对冲胜率 82.0%,多头超额年化收益 26.1%,多头超额信息比率 3.1,多头超额最大回撤 -5.0%,多头超额胜率 74.0%。[7][72] 8. ML_C因子在沪深300样本空间,10日RankIC 8.6%,年化RankICIR 2.7,多空对冲年化收益 26.4%,多空对冲信息比率 1.9,多空对冲最大回撤 -14.6%,多空对冲胜率 60.7%,多头超额年化收益 12.4%,多头超额信息比率 1.3,多头超额最大回撤 -6.3%,多头超额胜率 57.3%。[73][75] 9. ML_C因子在中证500样本空间,10日RankIC 9.4%,年化RankICIR 3.5,多空对冲年化收益 37.9%,多空对冲信息比率 2.8,多空对冲最大回撤 -15.5%,多空对冲胜率 70.0%,多头超额年化收益 13.7%,多头超额信息比率 2.0,多头超额最大回撤 -5.3%,多头超额胜率 66.7%。[73][75] 10. ML_C因子在中证1000样本空间,10日RankIC 11.8%,年化RankICIR 4.7,多空对冲年化收益 57.0%,多空对冲信息比率 4.1,多空对冲最大回撤 -12.4%,多空对冲胜率 78.0%,多头超额年化收益 17.3%,多头超额信息比率 2.3,多头超额最大回撤 -8.1%,多头超额胜率 65.3%。[74][75] 11. 行业轮动因子 (5因子等权合成),10日RankIC 9.21%,多头年化收益 17.93%,多头年化波动率 25.44%,多头最大回撤 -20.23%,多头胜率 54.67%,夏普比率 0.70,多空对冲年化收益 22.41%,多空对冲信息比率 1.70,多空对冲最大回撤 -9.96%,多空对冲胜率 60.00%。[92][94] 12. 上证50增强 (行业轮动方案),超额年化收益 4.95%,超额年化波动率 2.17%,超额信息比率 2.28,超额最大回撤 -1.98%。[5][95][97] 13. 上证50增强 (Barra优化框架),超额年化收益 5.82%,超额年化波动率 2.78%,超额信息比率 2.09,超额最大回撤 -3.03%。[99][101] 14. 沪深300增强 (Barra优化框架),超额年化收益 6.77%,超额年化波动率 3.29%,超额信息比率 2.06,超额最大回撤 -3.81%。[5][103][106] 15. 中证500增强 (Barra优化框架),超额年化收益 10.72%,超额年化波动率 3.78%,超额信息比率 2.83,超额最大回撤 -3.31%。[5][103][109] 16. 中证1000增强 (Barra优化框架),超额年化收益 14.41%,超额年化波动率 4.42%,超额信息比率 3.26,超额最大回撤 -3.34%。[5][103][112] 量化因子与构建方式 1. 因子名称:收益率牵引因子[27] * 因子构建思路:基于资金流关联网络,通过聚合同状态股票集的收益率信息来构建选股因子。[27] * 因子具体构建过程: 1. 构建关联状态:在每个交易日,回看过去20个交易日,根据小单净流入强度将股票分为20种状态。[27] 2. 计算同状态股票集收益:对于股票A,找到与其处于相同状态的所有股票,计算该股票集合的收益平均值。[27] 3. 计算因子值:将股票A自身的收益对同状态股票集收益平均值进行回归,所得的残差即为股票A的因子值。[27] * 因子评价:该因子具备一定的选股效果,是GAT网络挖掘因子思想的雏形。[27] 2. 因子名称:开源金工特色大小单资金流人工因子(大单残差、小单残差、主动买卖、散户羊群效应、超大单关注度)[52][53] * 因子构建思路:基于AshareMoneyFlow基础表,从不同角度人工构建的交易行为因子。[52] * 因子具体构建过程:报告未提供具体公式,仅列出因子名称及来源报告。[53] 因子的回测效果 测试区间均为2020年1月1日至2025年11月28日,双周频调仓。[53] 1. 收益率牵引因子,10日RankIC 2.3%。[27] 2. 大单残差因子,10日RankIC 2.1%,RankICIR 1.6。[53] 3. 小单残差因子,10日RankIC -2.2%,RankICIR -1.9。[53] 4. 主动买卖因子,10日RankIC 4.8%,RankICIR 3.5。[53] 5. 散户羊群效应因子,10日RankIC -3.0%,RankICIR -2.3。[53] 6. 超大单关注度因子,10日RankIC 5.3%,RankICIR 3.9。[53]
市场微观结构系列(32):深度学习赋能因子挖掘2.0:综合应用方案
开源证券·2026-01-28 17:14