报告核心观点 - 未来量价因子研究想要获取更多与现有因子低相关性的增量,“逐笔等高频数据”和“离散化的因子构建方式”缺一不可;离散化方式构建的选股因子,尤其是逐笔数据层面的离散化,虽因子回测效果未必优于连续性因子,但落实到组合层面能提供增量信息,提升组合收益与稳定性 [1][88][89] 前言 - 多因子选股研究涉及基于何种量价数据和如何构建因子;中高频数据构建的因子有效性通常更强;因子构建方式分为连续性和离散化构建 [8] - 连续性因子构建方法难有增量,分钟数据离散化因子拥挤度高、有效性衰减;未来量价因子研究获取增量信息方向是“逐笔等高频数据 + 离散化的因子构建方式” [9][10] 连续性的因子构建方式 日频数据 + 连续性构建 - 以“量价相关性类因子”为例,用日频行情数据构建因子簇作比较基准,不构建离散化因子 [14] - 构建步骤为设计日度量价指标(得 56 种)和计算相关性(得 18760 个因子),筛选后得到“日频量价相关性因子簇”,等权合成得“日频连续”因子 [15][18] - “日频连续”因子回测表现:月度 IC 均值 0.047,年化 ICIR 为 2.36 等;沪深 300 指数增强组合年化收益 7.96%,超额年化收益 6.55% 等 [19][22] 分钟数据 + 连续性构建 - 基于分钟行情数据,用连续性信息提取方式构建因子簇,步骤为设计资金流指标、考虑是否标准化、计算因子,筛选后得“分钟连续量价相关性因子簇”,等权合成得“分钟连续”因子 [24][27] - “分钟连续”因子回测表现:月度 IC 均值 0.079,年化 ICIR 为 3.57 等 [28] 逐笔数据 + 连续性构建 - 在逐笔数据上用连续性信息提取方式构建因子,步骤为设计逐笔量价指标(9 种)和计算相关性(得 477 个因子),筛选后得“逐笔连续量价相关性因子簇”,等权合成得“逐笔连续”因子 [30][34] - “逐笔连续”因子回测表现:月度 IC 均值 0.075,年化 ICIR 为 3.20 等 [37] “分钟连续”、“逐笔连续”因子的增量 - 叠加因子回测效果:“分钟连续”因子稳定性最强;叠加“分钟连续”或“逐笔连续”因子效果相差不大且有显著提升;同时叠加效果进一步提升 [39] - 构建沪深 300 指数增强组合,“分钟连续”、“逐笔连续”因子在组合层面增量有限,超额年化收益提升 0.5% - 0.6% 左右 [47] 离散化因子的构建方式 分钟数据 + 离散化构建 - 构建思路与系列报告(九)类似,分为事件识别和因子定义,在 1 分钟数据集上批量生产因子,筛选后得“分钟离散量价相关性因子簇”,等权合成得“分钟离散”因子 [49][52] - “分钟离散”因子回测表现:月度 IC 均值 0.067,年化 ICIR 为 2.81 等 [52] 逐笔数据 + 离散化构建 - 构建步骤为事件识别(9 种方法)、因子定义(477 种方法),搭配后构建 4293 个“逐笔离散量价相关性因子”,筛选后得“逐笔离散量价相关性因子簇”,等权合成得“逐笔离散”因子 [54][58] - “逐笔离散”因子回测表现:月度 IC 均值 0.073,年化 ICIR 为 2.87 等 [58] “分钟离散”、“逐笔离散”因子的增量 - 叠加因子回测表现:“分钟离散”、“逐笔离散”因子弱于“连续”因子,叠加后 IC、RankIC 略提升,整体绩效指标相差不大 [62] - 构建沪深 300 指数增强组合,离散化因子在组合层面能提供增量,“连续 + 逐笔离散”因子组合绩效最强,超额年化收益提升超 1% [70][71] 其他重要讨论 “逐笔离散”因子的分年度表现 - 补充展示“逐笔离散”因子分年度表现情况 [74] “逐笔离散”因子剔除常见风格与行业后的表现 - “逐笔离散”因子与波动率、流动性因子相关性较高,与其他因子相关性较低 [75] - 剔除常用风格与行业影响后,“纯净逐笔离散”因子仍有效,月度 IC 均值 0.037,年化 ICIR 为 2.84 等 [76][78] “逐笔离散”因子的指数增强组合表现 - 构建沪深 300、中证 500、中证 1000 指数增强组合,各组合均有较好收益表现,如沪深 300 指数增强组合超额年化收益 7.17% 等 [81][83][86] 总结 - 未来量价因子研究获取增量需“逐笔等高频数据”和“离散化的因子构建方式” [88] - 连续性因子构建中,“分钟连续”、“逐笔连续”因子在组合层面增量有限 [88] - 离散化因子构建中,离散化因子在组合层面能提供显著增量,论证了“高频数据 + 离散化构建方式”的重要性 [89]
量价淘金”选股因子系列研究(十二):高频数据+离散化构建方式”在因子研究中的重要性
国盛证券·2025-05-14 23:33