Workflow
“学海拾珠”系列之二百五十:如何压缩因子动物园?
华安证券·2025-09-29 21:18

根据研报内容,现对其中涉及的量化模型与因子进行总结如下: 量化模型与构建方式 1. 模型名称:迭代因子选择模型[3] - 模型构建思路:针对“因子动物园”问题,提出一种系统性的迭代选择策略,旨在以最少数量的因子捕捉绝大部分有效的定价信息[2][3] - 模型具体构建过程:该模型从CAPM开始,在每一步迭代中,从剩余因子池中选择一个能最大程度提升当前模型解释力的因子加入模型,提升效果通过GRS统计量的下降幅度来衡量[3] - 步骤1:设 l=0,以CAPM模型作为起点,解释因子动物园中除市场因子外的N个因子[25] f_{i}=\alpha_{i}+\beta_{m}r_{m}+\varepsilon_{i}\qquad i=1,\ldots,N\tag{1} 其中,rm 是市场超额收益,N 是因子动物园中除市场因子外的因子数量[25] - 步骤2:测试 N−l 个不同的增强因子模型,每个模型都将一个剩余的因子(标记为 ftest)添加到前一次迭代的模型中[26] fi=αi+βmrm+k=1lβkfk+βtestftest+εii=1,,Nlf_{i}=\alpha_{i}+\beta_{m}r_{m}+\sum_{k=1}^{l}\beta_{k}f_{k}+\beta^{test}f^{test}+\varepsilon_{i}\qquad i=1,\ldots,N-l\, - 步骤3:根据解释力(由GRS统计量量化)对测试的因子模型进行排序,并选择最强的模型[26] - 步骤4:设 l=l+1,并根据增强后的因子模型计算剩余显著因子alpha的数量 n(α)t>x[26] $n(\alpha){t>x}=|{a{i},|,t(a_{i})>x}|i=1,...,N-l$ 其中 x 是选定的显著性阈值(例如 t>1.96 或 t>3.00)[26][29] - **步骤5**:如果 n(α)t>x=0,即剩余因子的alpha在统计上与零无差异,则停止迭代;否则,返回步骤2继续[26] - **模型评价**:该方法能以最少的因子数量,系统性地捕捉因子动物园中的绝大部分有效信息,其有效性在美国及全球数据中均得到验证[3][4][71] 2. **模型名称**:GRS统计量评估模型[30] - **模型构建思路**:GRS统计量用于检验所有测试资产的alpha是否联合为零,是评估资产定价模型性能的标准工具[30] - **模型具体构建过程**:GRS检验统计量的计算基于测试资产alpha的最大化夏普比率平方和模型因子收益的最大化夏普比率平方[30] - 截距项的最大化夏普比率平方定义为: Sh^{2}(\alpha)=\alpha^{\dagger}\Sigma^{-1}\alpha\tag{4}其中Σ=eτe/(τK1)是回归残差e的协方差矩阵[30]给定模型因子的最大化夏普比率平方定义为: 其中 Σ=eτe/(τ−K−1)是回归残差 e 的协方差矩阵[30] - 给定模型因子的最大化夏普比率平方定义为: Sh^{2}(f)=\overline{f}^{\dagger}\Omega^{-1}\overline{f}\tag{5}其中fˉ是模型的平均因子收益,Ω=(ffˉ)(ffˉ)/(τ1)是模型因子的协方差矩阵[30]GRS检验统计量计算为: 其中 fˉ 是模型的平均因子收益,Ω=(f−fˉ)⊤(f−fˉ)/(τ−1)是模型因子的协方差矩阵[30] - GRS检验统计量计算为: F_{G R S}=\frac{\tau(\tau-N-K)}{N(\tau-K-1)},\frac{S h^{2}(\alpha)}{(1+S h^{2}(f))}$$ 且 FGRS∼F(N,τ−N−K)[30] 模型的回测效果 1. 迭代因子选择模型(基于美国市值加权因子,样本期1971年11月至2021年12月)[31][32][40] - 当使用 t>3.00 的显著性阈值时,添加第15个因子后,剩余显著alpha的数量降至0[40][42] - 当使用 t>1.96 的显著性阈值时,总共需要18次迭代可使剩余alpha变得不显著[40][42] - 在包含相同数量因子的情况下,该迭代模型优于常见的学术因子模型(如Fama-French五因子、六因子模型等)[43][46] 2. GRS统计量评估结果(针对迭代因子选择过程)[40] - 起点CAPM模型的GRS统计量为4.36 (p值为0.00),剩余显著因子数量(t>2阈值)为105个,(t>3阈值)为86个[40] - 添加第一个因子(cop_at)后,GRS统计量降至3.54,平均绝对alpha为年化3.94%[40] - 添加第二个因子(noa_grla)后,GRS统计量降至2.98,平均绝对alpha降至年化2.15%[40][41] - 添加第15个因子(rmax5_rvol_21d)后,GRS统计量降至1.19 (p值为0.09)[40] 量化因子与构建方式 1. 因子名称:基于现金的营业利润与账面资产比率 (cop_at)[40] - 因子构建思路:属于质量因子类别,在迭代选择过程中被识别为因子动物园中最强的因子[40][46] 2. 因子名称:净经营资产变化 (noa_grla)[40] - 因子构建思路:属于投资因子类别,在迭代选择过程中被识别为次强的因子[40] 3. 因子名称:销售增长(1个季度)(saleq_gr1)[40] - 因子构建思路:属于投资因子类别[40] 4. 因子名称:内在价值与市值比 (ival_me)[40] - 因子构建思路:属于价值因子类别[40] 5. 因子名称:残差动量 t-12 至 t-1 (resff3_12_1)[40] - 因子构建思路:属于动量因子类别[40] 6. 因子名称:第6-10年滞后收益(年化)(seas_6_10an)[40] - 因子构建思路:属于季节性因子类别[40] 7. 因子名称:债务与市值比 (debt_me)[40] - 因子构建思路:属于价值因子类别[40] 8. 因子名称:第6-10年滞后收益(非年化)(seas_6_10na)[40] - 因子构建思路:属于低风险因子类别[40] 9. 因子名称:零交易天数(12个月)(zero_trades_252d)[40] - 因子构建思路:属于低风险因子类别[40] 10. 因子名称:当期营运资本变动 (cowc_grla)[40] - 因子构建思路:属于应计项目因子类别[40] 11. 因子名称:净非流动资产变动 (nncoa_grla)[40] - 因子构建思路:属于投资因子类别[40] 12. 因子名称:经营现金流与市值比 (ocf_me)[40] - 因子构建思路:属于价值因子类别[40] 13. 因子名称:零交易天数(1个月)(zero_trades_21d)[40] - 因子构建思路:属于低风险因子类别[40] 14. 因子名称:换手率 (turnover_126d)[40] - 因子构建思路:属于低风险因子类别[40] 15. 因子名称:过去五个最高日收益经波动率调整 (rmax5_rvol_21d)[40] - 因子构建思路:属于短期反转因子类别,是使剩余显著alpha数量(t>3阈值)降为零的关键因子[40][42] 因子的回测效果 1. 关键因子集整体效果(美国市场,前15个选定因子)[40][46] - 这15个因子源自13个因子风格类别中的8个,显示了因子集的异质性[17][46] - 该因子集能够解释美国市场153个因子的绝大部分收益信号,表明多数因子存在冗余[2][17] 2. 因子加权方案对比(上限市值加权CW、市值加权VW、等权EW)[64][68][69] - 等权(EW)因子:表现出更强且更多样的alpha,但需要超过30个因子才能覆盖因子动物园(t>2阈值)[4][64][69][70] - 上限市值加权(CW)因子:需要约15个因子(t>3阈值)或18个因子(t>2阈值)来覆盖因子动物园[64][69][70] - 市值加权(VW)因子:需要约18-19个因子(t>2阈值)来覆盖因子动物园[69][70] 3. 全球因子分析效果(样本期1993年8月至2021年12月)[71][74] - 使用全球因子数据时,需要约11个因子(t>3阈值)或20多个因子(t>2阈值)来覆盖全球因子动物园[74] - 基于全球数据选出的因子模型对美国因子的解释力强于对美国以外全球因子的解释力,暗示国际因子蕴含更丰富的alpha信息[4][71][75]