Workflow
高频数据因子研究系列三:基于个股羊群效应的选股因子研究
广发证券·2020-05-05 00:00

量化因子与构建方式 1. 因子名称:羊群效应因子 - 因子的构建思路:利用个股日内高频交易数据,结合LSV模型,构建个股短期内的羊群效应指标[10][34][39] - 因子具体构建过程: - 计算特定时间段内的买方驱动单数量 B(i,T)B(i,T) 和卖方驱动单数量 S(i,T)S(i,T) - 计算羊群行为度量 H(i,T)H(i,T) H(i,T)=B(i,T)B(i,T)+S(i,T)PTAF(t,T) H(i,T)=\left|{\frac{B(i,T)}{B(i,T)+S(i,T)}}-P_{T}\right|-\,A F(t,T) 其中 PTP_{T} 为所有股票的买单占其交易单比例的横截面平均值,AF(i,T)AF(i,T) 是调整项,其表达式为 AF(i,T)=k=0Ni,T(Ni,Tk)pTk(1pT)Ni,TkNi,T pT A F(i,T)=\sum_{k=0}^{N_{i,T}}{\binom{N_{i,T}}{k}}\,p_{T}^{k}(1-p_{T})^{N_{i,T}-}\left|{\frac{k}{N_{i,T}}}-\ p_{T}\right| - 根据个股买单比例的相对水平,将羊群行为划分成买入羊群行为 HB(i,T)HB(i,T) 和卖出羊群行为 HS(i,T)HS(i,T) HB(i,T)=H(i,T)      if  B(i,T)B(i,T)+S(i,T)>  PT H B(i,T)=-H(i,T)\;\;\;i f\;\frac{B(i,T)}{B(i,T)+S(i,T)}>\;P_{T} HS(i,T)=H(i,T)      if  B(i,T)B(i,T)+S(i,T)<  PT H S(i,T)=H(i,T)\;\;\;i f\;\frac{B(i,T)}{B(i,T)+S(i,T)}<\;P_{T} - 使用天软数据库的高频数据,识别个股每笔买卖方向,统计买方和卖方驱动单[39][40][41] 2. 因子名称:处理后的羊群效应因子 - 因子的构建思路:对原始因子进行去极值、中性化和标准化处理,以提高因子的有效性[4][10][108] - 因子具体构建过程: - 去极值:采用MAD法对异常数据进行剔除 md=median{xi,i=1,2,3,n} m d=m e d i a n\{x_{i},i=1,2,3\ldots,n\} MAD=median(ximd),i=1,2,3,,n M A D=\,m e d i a n(|x_{i}-m d|),i=1,2,3,\ldots,n - 中性化:将原始因子值和股票的市值以及行业进行回归,取残差项作为新因子 H(i,T)=β0+β1size(i,T)+β2industry(i,T)+ε(i,T) H(i,T)=\beta_{0}+\,\beta_{1}s i z e(i,T)+\beta_{2}i n d u s t r y(i,T)+\varepsilon(i,T) - 标准化:使用因子的Z-Score值作为新的因子值 Hnew(i,T)=H(i,T)mean(H(i,T))std(H(i,T)) H_{n e w}(i,T)=\frac{H(i,T)-\,m e a n(H(i,T))}{s t d(H(i,T))} - 处理后的因子在全市场、中证800、中证500及沪深300板块内进行了详细地测算[108][110][111] 因子的回测效果 1. 原始羊群效应因子 - 全市场: - IC均值:0.047 - 正IC占比:69.90% - 多头组合年化收益率:34.02% - 信息比率:1.05 - 多头组合相对中证500指数年化超额收益率:24.61% - 信息比率:2.59[4][46][59] 2. 处理后的羊群效应因子 - 全市场: - IC均值:0.051 - 正IC占比:73.77% - 多头组合年化收益率:34.62% - 信息比率:1.09 - 多头组合相对中证500指数年化超额收益率:24.98% - 信息比率:2.84[4][111][125] 3. 中证800 - 原始因子: - IC均值:0.043 - 正IC占比:64.68% - 多头组合年化收益率:22.01% - 信息比率:1.14 - 多头组合相对中证800指数年化超额收益率:16.27% - 信息比率:1.14[61][65][74] - 处理后因子: - IC均值:0.046 - 正IC占比:69.15% - 多头组合年化收益率:24.63% - 信息比率:0.84 - 多头组合相对中证800指数年化超额收益率:18.84% - 信息比率:1.45[126][128][136] 4. 中证500 - 原始因子: - IC均值:0.052 - 正IC占比:67.96% - 多头组合年化收益率:25.79% - 信息比率:0.81 - 多头组合相对中证500指数年化超额收益率:16.72% - 信息比率:1.87[76][79][89] - 处理后因子: - IC均值:0.055 - 正IC占比:71.54% - 多头组合年化收益率:28.19% - 信息比率:0.88 - 多头组合相对中证500指数年化超额收益率:19.13% - 信息比率:2.35[137][139][147] 5. 沪深300 - 原始因子: - IC均值:0.028 - 正IC占比:57.82% - 多头组合年化收益率:15.49% - 信息比率:0.56 - 多头组合相对沪深300指数年化超额收益率:9.19% - 信息比率:0.68[91][95][105] - 处理后因子: - IC均值:0.031 - 正IC占比:60.21% - 多头组合年化收益率:20.36% - 信息比率:0.74 - 多头组合相对沪深300指数年化超额收益率:14.08% - 信息比率:1.25[148][150][156]