Workflow
20190220-国盛证券-量化专题报告:多因子系列之二:Alpha因子高维度与非线性问题——基于Lasso的收益预测模型
国盛证券·2019-02-20 00:00

量化模型与构建方式 1. Lasso 模型 - 模型构建思路:Lasso 模型通过在回归中加入 L1 正则项,解决高维度下因子筛选和收益预测的问题[2] - 模型具体构建过程: 1. 线性回归模型:minYXβ22n+λβ1\text{min} \frac{\|Y-X\beta\|_{2}^{2}}{n} + \lambda \|\beta\|_{1}[23] 2. 训练样本长度 M 个月,调节参数通过训练数据得到[24] 3. 每个月月底,将前 M 个月的数据作为训练样本,求解 Lasso 的参数,预测股票下个月的收益[25] - 模型评价:Lasso 模型相比传统模型具有更好的收益预测能力,但在因子筛选方面效果一般[2][27] 2. Adaptive Lasso 模型 - 模型构建思路:在 Lasso 模型基础上改进,赋予不同因子权重不同的惩罚项,解决 Lasso 模型一致性条件过于严格的问题[2][28] - 模型具体构建过程: 1. 首先进行 Lasso 回归,得到每个变量的系数 2. 将变量的系数作为权重,进行第二次回归:minYXβ22n+λj=1pβjβint,j\text{min} \frac{\|Y-X\beta\|_{2}^{2}}{n} + \lambda \sum_{j=1}^{p} \frac{|\beta_{j}|}{|\beta_{\text{int},j}|}[29] - 模型评价:Adaptive Lasso 在因子筛选和收益预测方面均优于 Lasso 模型[28][32] 3. Group Lasso 模型 - 模型构建思路:考虑因子和收益的非线性关系,通过二次样条函数拟合因子和收益的非线性关系,并用 Group Lasso 方法进行估计[3][50] - 模型具体构建过程: 1. 定义股票的期望收益:mt(f1,,fs)=E[RitF1,it1=f1,,FS,it1=fS]m_{t}(f_{1},\dots,f_{s}) = E[R_{it}|F_{1,it-1}=f_{1},\dots,F_{S,it-1}=f_{S}][53] 2. 用二次样条函数拟合因子和收益的非线性关系:mts(f)k=1L+2βtskpk(f)m_{ts}(f) \approx \sum_{k=1}^{L+2} \beta_{tsk} p_{k}(f)[57] 3. 用 Group Lasso 方法进行估计:mini=1N(Rits=1Sk=1L+2βskpk(fs,it1))2+λs=1S(k=1L+2βsk2)12\text{min} \sum_{i=1}^{N} \left( R_{it} - \sum_{s=1}^{S} \sum_{k=1}^{L+2} \beta_{sk} p_{k}(f_{s,it-1}) \right)^{2} + \lambda \sum_{s=1}^{S} \left( \sum_{k=1}^{L+2} \beta_{sk}^{2} \right)^{\frac{1}{2}}[61] - 模型评价:Group Lasso 方法在捕捉因子和收益的非线性关系方面表现优秀,预测能力优于线性模型[50][69] 模型的回测效果 Lasso 模型 - 第一组年化收益:0.143 - 0.161[26] - 第一组年化波动:0.044 - 0.050[26] - 信息比率:2.853 - 3.296[26] - IC:0.088 - 0.096[26] - ICIR:4.523 - 5.412[26] - 因子个数:18.656 - 53.215[26] - MSE:0.12566 - 0.12617[26] Adaptive Lasso 模型 - 第一组年化收益:0.147 - 0.162[31] - 第一组年化波动:0.045 - 0.051[31] - 信息比率:2.891 - 3.285[31] - IC:0.089 - 0.097[31] - ICIR:4.894 - 5.409[31] - 因子个数:18.516 - 37.849[31] - MSE:0.12568 - 0.12619[31] Group Lasso 模型 - 第一组年化收益:0.149 - 0.190[63][67] - 第一组年化波动:0.039 - 0.066[63][67] - 信息比率:2.420 - 3.630[63][67] - IC:0.087 - 0.094[63][67] - ICIR:3.942 - 5.004[63][67] - MSE:0.125568 - 0.126164[63][67]