量价深度学习因子超额显著修复
华泰证券·2026-01-25 18:38

量化模型与构建方式 1. 模型名称:全频段量价融合因子模型[6] * 模型构建思路:整合不同频率(高频与低频)的量价数据,通过深度学习模型分别挖掘其蕴含的选股信息,最终融合成一个综合因子[6]。 * 模型具体构建过程: 1. 高频因子构建:使用深度学习模型,以分钟和Level2等高频数据为输入特征,训练得到27个高频深度学习因子[6][11]。 2. 低频因子构建:利用多任务学习模型,对日频、周频、月频等低频量价数据进行端到端挖掘,得到低频多任务因子[6]。 3. 因子融合:将上述得到的高频深度学习因子与低频多任务因子合成为最终的全频段融合因子[6]。 2. 模型名称:AI中证1000增强组合模型[1][7] * 模型构建思路:基于全频段融合因子,在跟踪中证1000指数的基础上构建增强组合,以获取稳定的超额收益[1][7]。 * 模型具体构建过程: 1. 选股与赋权:使用全频段融合因子作为核心选股指标[1][7]。 2. 组合约束:组合构建时遵循以下规则:对中证1000指数成分股的权重不低于80%;个股权重相对于基准的偏离上限为0.8%;对Barra风险模型的暴露控制在0.3以内;周双边换手率目标为30%[9]。 3. 调仓与交易:采用周频调仓,交易费用假设为双边千分之四[9]。 3. 模型名称:文本LLM-FADT选股模型[2][14][17] * 模型构建思路:在传统文本分析模型(BERT-FADT)基础上,引入大语言模型(LLM)对分析师研报进行多维度深度解读,生成更丰富的文本特征,以提升选股效果[2][14]。 * 模型具体构建过程: 1. 文本增强:对原始研报的标题和摘要,使用大语言模型从“标题新解”、“行情催化剂”、“言外之意”、“潜在风险”、“收益指引”五个额外视角进行解读和补充[14][17]。 2. 特征提取:将原始文本及上述5个增强后的文本,共计6类文本,输入微调版的FinBERT模型,分别转化为文本特征向量[17]。 3. 预测建模:将得到的多组文本特征向量作为输入,使用XGBoost模型进行训练,预测股票未来收益[17]。 4. 模型名称:AI行业轮动模型[3][38][43] * 模型构建思路:利用全频段量价融合因子,自下而上地对行业进行打分,选择得分最高的行业构建轮动策略[3][38]。 * 模型具体构建过程: 1. 行业池:主要覆盖32个一级行业,其中对食品饮料、有色金属进行了细分,排除了综合和综合金融[43]。 2. 行业打分:使用行业内成分股的全频段量价融合因子得分,对每个行业进行打分[38][43]。 3. 策略规则:每周最后一个交易日,选择模型打分最高的5个行业,于下周第一个交易日收盘价等权买入,周频调仓,策略回测中不计交易成本[3][43]。 5. 模型名称:AI主题指数轮动模型[4][31] * 模型构建思路:利用全频段量价融合因子,对主题指数进行打分,选择得分高的指数构建轮动策略[4][31]。 * 模型具体构建过程: 1. 指数池:根据Wind的ETF基金分类,选取133个有对应ETF的主题指数构成备选池[31]。 2. 指数打分:使用指数成分股的全频段量价融合因子得分,对每个主题指数进行打分[31]。 3. 策略规则:每周最后一个交易日,选择模型打分最高的10个主题指数,于下周第一个交易日开盘价等权买入,周频调仓,交易成本为双边万分之四[4][31]。 6. 模型名称:AI概念指数轮动模型[4][37] * 模型构建思路:利用全频段量价融合因子,对概念指数进行打分,选择得分高的指数构建轮动策略[4][37]。 * 模型具体构建过程: 1. 指数池:选取Wind热门概念指数,共72个构成备选池[37]。 2. 指数打分:使用指数成分股的全频段量价融合因子得分,对每个概念指数进行打分[37]。 3. 策略规则:每周最后一个交易日,选择模型打分最高的10个概念指数,于下周第一个交易日开盘价等权买入,周频调仓,交易成本为双边万分之四[4][37]。 量化因子与构建方式 1. 因子名称:全频段量价融合因子[6] * 因子构建思路:通过深度学习技术分别挖掘高频和低频量价数据中的有效信息,并将它们融合成一个综合性的选股因子[6]。 * 因子具体构建过程:参见上述“全频段量价融合因子模型”的具体构建过程[6]。 * 因子评价:该因子的主要收益贡献来源于日频、周频、月频等低频量价数据[1][11]。在2025年表现非常显著,但在2026年初经历了一定回撤[11]。相比之下,基于纯高频数据(如分钟、Level2)的深度学习因子在2026年初回撤较小,且在2024年极端市场环境中表现更优[11]。 2. 因子名称:高频深度学习因子[6][11] * 因子构建思路:专注于从分钟级和Level2等高频率量价数据中,通过深度学习模型提取能够预测股票收益的特征[6][11]。 * 因子具体构建过程:使用深度学习模型,以分钟和Level2数据作为输入特征进行训练,得到27个因子[6]。 3. 因子名称:低频多任务因子[6] * 因子构建思路:专注于从日频、周频、月频等低频率量价数据中,通过多任务学习模型进行端到端的信息挖掘[6]。 * 因子具体构建过程:利用多任务学习模型对低频量价数据进行端到端训练得到[6]。 模型的回测效果 1. AI中证1000增强组合模型[1][7][11] * 年化收益率:21.37%[11] * 年化波动率:23.27%[11] * 夏普比率:0.92[11] * 最大回撤:33.08%[11] * 年化超额收益率(相对中证1000):21.60%[1][7][11] * 年化跟踪误差:6.06%[1][7][11] * 信息比率(IR):3.57[1][7][11] * 超额收益最大回撤:7.55%[1][7][11] * 超额收益Calmar比率:2.86[1][7][11] * 相对基准月胜率:78.50%[11] * 年化双边换手率:32.56%[11] 2. 文本LLM-FADT选股模型(中证500增强)[2][20][24] * 年化收益率:30.10%[2][20][24] * 年化波动率:25.57%[24] * 夏普比率:1.18[2][20][24] * 最大回撤:36.70%[24] * Calmar比率:0.82[24] * 年化超额收益率(相对中证500):25.52%[2][20][24] * 年化跟踪误差:12.76%[24] * 信息比率(IR):2.00[2][20][24] * 超额收益最大回撤:22.89%[24] * 超额收益Calmar比率:1.11[24] * 相对基准月胜率:75.00%[24] * 年化双边换手率:14.88%[24] 3. AI行业轮动模型[3][41] * 年化收益率:26.87%[3][41] * 年化超额收益率(相对行业等权基准):19.02%[3][41] * 超额收益最大回撤:12.43%[41] * 超额夏普比率:1.85[41] * 今年以来收益率(截至2026/1/23):4.22%[41] 4. AI主题指数轮动模型[4][30] * 年化收益率:16.92%[4][30] * 年化超额收益率(相对主题指数等权基准):9.37%[4][30] * 超额收益最大回撤:20.79%[30] * 超额夏普比率:0.73[30] * 今年以来收益率(截至2026/1/23):3.78%[30] 5. AI概念指数轮动模型[4][35] * 年化收益率:23.22%[4][35] * 年化超额收益率(相对概念指数等权基准):9.74%[35] * 超额收益最大回撤:20.16%[35] * 超额夏普比率:0.82[35] * 今年以来收益率(截至2026/1/23):4.41%[35] 因子的回测效果 1. 全频段量价融合因子[6] * 5日RankIC均值:0.114[6][7] * TOP层年化超额收益率(相对全A等权基准):29.38%[6] * 今年以来TOP层超额收益率(截至2026/1/23):0.40%[6]