Workflow
深度学习研究报告之七:深度学习框架下高频数据因子挖掘
广发证券·2021-03-07 00:00

量化模型与构建方式 1. 模型名称:深层全连接神经网络模型 模型构建思路:通过深层全连接神经网络从日频因子中提取股票特征,预测股票未来走势[28][29] 模型具体构建过程: - 输入层包含76个日频变量,包括73个高频数据低频化的股票特征和3个低频风格因子(股票市值、5日换手率均值、5日收益率)[29] - 网络结构包含7层,分别为输入层X(76个节点)、隐含层H1(128个节点)、H2(128个节点)、H3(64个节点)、H4(64个节点)、H5(32个节点)和输出层Y(3个节点)[30] - 输出层采用softmax激活函数,预测股票未来走势的三种可能性(上涨、平盘、下跌)[31] - 损失函数采用交叉熵损失函数,优化目标为: E(w)=n=1Nk=1K[ynklogy^nk+(1ynk)log(1y^nk)]E(w)=-\sum_{n=1}^{N}\sum_{k=1}^{K}[y_{n k}\log{\hat{y}}_{n k}+(1-y_{n k})\log(1-{\hat{y}}_{n k})] - 训练数据为全市场股票,剔除上市时间不足20个交易日、ST股票、停牌及涨停跌停的股票[33] 2. 模型名称:特征组合模型 模型构建思路:通过回归分析机器生成的特征与股票收益率的关系,构建预测模型[34] 模型具体构建过程: - 对第t期的全市场股票走势,通过回归模型分析股票因子与收益率的关系: rit=rmt+k=1nxiktβkt+εir_{i}^{t}=r_{m}^{t}+\sum_{k=1}^{n}x_{i k}^{t}\beta_{k}^{t}+\varepsilon_{i} - 通过滚动平均的方式构建因子对股票收益率的预测模型,将过去T个交易日的回归系数取平均,作为因子对股票收益率解释度的期望值: Es[βk]=1Tτ=1TβksτE^{s}[\beta_{k}]={\frac{1}{T}}\sum\nolimits_{\tau=1}^{T}\beta_{k}^{s-\tau} - 对新一期的股票相对收益率进行预测: r^is=k=1nxiksEs[βk]{\hat{r}}_{i}^{s}=\sum_{k=1}^{n}x_{i k}^{s}E^{s}[\beta_{k}] - 基于预测收益率筛选股票组合[36][37] 模型的回测效果 1. 深层全连接神经网络模型 - 样本外所有特征的平均IC(取绝对值)为7.7%[2] - 样本外IC均值低于5%的特征数量为5个,占比约16%[2] 2. 特征组合模型 - 2019年以来的样本外数据回测,5日IC均值为7.6%,标准差为7.8%[2] - 在20%的换手率约束下,中证500指数成分股内选股多头组合的年化超额收益率为26.0%,超额收益的夏普比率为2.99[2] - 在20%的换手率约束下,中证1000指数成分股内选股多头组合的年化超额收益率为42.4%,超额收益的夏普比率为3.37[2] 量化因子与构建方式 1. 因子名称:日内价格相关因子 因子构建思路:从日内累积收益率、日内收益率的高阶统计量和日内价格的趋势强度中提取因子[39] 因子具体构建过程: - 包括日内收益率(ret_intraday)、收益率方差(real_var)、收益率峰度(real_kurtosis)、收益率偏度(real_skew)、上行收益率方差(real_upvar)、下行收益率方差(real_downvar)、上行收益率方差占比(ratio_realupvar)、下行收益率方差占比(ratio_realdownvar)、趋势占比(trendratio)[40] 2. 因子名称:成交量相关因子 因子构建思路:从成交量的分布及其与价格或价格走势的关系中提取因子[41] 因子具体构建过程: - 包括开盘后各半小时成交量占比(ratio_volumeH1至ratio_volumeH8)、分钟成交量与价格相关性(corr_VP)、分钟成交量与收益率相关性(corr_VR)、分钟成交量与上一时刻收益率相关性(corr_VRlag)、分钟成交量与下一时刻收益率相关性(corr_VRlead)[42] 3. 因子名称:盘前价量因子 因子构建思路:从隔夜收益率和开盘前集合竞价信息中提取因子[43] 因子具体构建过程: - 包括隔夜收益率(ret_overnight)、开盘价相对第一阶段集合竞价最高价的收益率(ret_open2AH1)、开盘价相对第一阶段集合竞价最低价的收益率(ret_open2AL1)、开盘价相对第二阶段集合竞价最高价的收益率(ret_open2AH2)、开盘价相对第二阶段集合竞价最高价的收益率(ret_open2AL2)、第一阶段集合竞价振幅(diverge_A1)、第二阶段集合竞价振幅(diverge_A2)[44] 4. 因子名称:资金流向因子 因子构建思路:通过Level 2数据计算资金流向,区分不同交易金额的买入和卖出行为[46] 因子具体构建过程: - 包括机构买入金额(amountbuy_exlarge)、机构卖出金额(amountsell_exlarge)、大户买入金额(amountbuy_large)、大户卖出金额(amountsell_large)、中户买入金额(amountbuy_med)、中户卖出金额(amountsell_med)、散户买入金额(amountbuy_small)、散户卖出金额(amountsell_small)、散户净买入金额(amountdiff_small)、散户净主动买入金额(amountdiff_smallact)、中户净买入金额(amountdiff_med)、中户净主动买入金额(amountdiff_medact)、大户净买入金额(amountdiff_large)、大户净主动买入金额(amountdiff_largeact)、机构净买入金额(amountdiff_exlarge)、机构净主动买入金额(amountdiff_exlargeact)、开盘资金流入率(volumeinflowrate_open)、尾盘资金流入率(volumeinflowrate_close)、净流入金额(moneyflow_diff)、净流入率(amountinflow_rate)[47] 因子的回测效果 1. 日内价格相关因子 - 5日IC最高的因子为real_upvar,IC为-5.52%[55] 2. 成交量相关因子 - 5日IC最高的因子为corr_VP,IC为-3.96%[55] 3. 盘前价量因子 - 5日IC最高的因子为ret_open2AH1,IC为4.15%[55] 4. 资金流向因子 - 5日IC最高的因子为amountbuy_small,IC为-7.60%[55]