20200516_开源证券_金融工程专题_振幅因子的隐藏结构--市场微观结构研究系列(7)_魏建榕,高鹏,苏俊豪
开源证券· 2020-05-16 00:00
量化因子与构建方式 振幅因子 - 因子名称:振幅因子 - 因子的构建思路:振幅因子作为波动类因子的代理变量,用于衡量股票在过去一段时间内的振幅平均水平[15][16] - 因子具体构建过程:回看最近20个交易日,计算股票每日的振幅(最高价/最低价-1),取其均值作为振幅因子[16][18] - 因子评价:振幅因子具有一定负向选股能力,但选股效果的稳定性不佳[5][18] 高价振幅因子 - 因子名称:高价振幅因子 - 因子的构建思路:通过价格维度切割振幅因子,提取高价区域的振幅信息以增强选股能力[21][23] - 因子具体构建过程: 1. 回溯最近20个交易日的股票数据 2. 计算每日振幅(最高价/最低价-1) 3. 选择收盘价较高的λ(如40%)有效交易日,计算振幅均值得到高价振幅因子 $V_{high}(\lambda)$ 4. 剔除停牌和一字涨跌停后的交易日,若有效交易日小于10日,则因子值设为空值[24][25] - 因子评价:高价振幅因子具有更强的负向选股能力,但多空对冲净值波动性较高,分组收益非单调[26][28][29] 理想振幅因子 - 因子名称:理想振幅因子 - 因子的构建思路:通过高价振幅因子与低价振幅因子作差,标准化处理以提升选股稳定性[31][32] - 因子具体构建过程: 1. 在同一切割比例λ下,将高价振幅因子 $V_{high}(\lambda)$ 与低价振幅因子 $V_{low}(\lambda)$ 作差 2. 构造得到理想振幅因子 $V(\lambda)$,公式如下: $$\mathrm{V(\lambda\,)=V_{\,\,\,h i g h(\lambda\,)}-V_{\,\,\,l o w(\lambda\,)}}$$[31][32] - 因子评价:理想振幅因子选股能力显著优于高价振幅因子,表现稳定,分组收益单调排列[33][35] 换手率因子 - 因子名称:理想换手率因子 - 因子的构建思路:基于理想振幅因子的构造框架,对换手率因子进行切割以提取隐藏结构[45] - 因子具体构建过程: 1. 回看最近20个交易日,计算每日换手率均值作为换手率因子 2. 按价格维度切割,构造高价换手率因子与低价换手率因子 3. 将高价换手率因子与低价换手率因子作差,得到理想换手率因子 $T(\lambda)$[45][48] - 因子评价:理想换手率因子选股能力优于原始换手率因子,可视为改进方案[45][48] --- 因子的回测效果 振幅因子 - 月度IC均值:-0.035 - rankIC均值:-0.068 - ICIR:-0.77 - 月度胜率:59.2%[5][18] 高价振幅因子 - λ=20%时: - 多空对冲年化收益率:16.7% - 年化波动率:11.8% - 最大回撤:13.9% - IC均值:-0.062 - ICIR:-1.76[26][28] 理想振幅因子 - λ=25%时: - 多空对冲年化收益率:23.3% - IC均值:-0.067 - ICIR:-2.97 - 月度胜率:84.2%[35][39] 理想换手率因子 - λ=25%时: - 多空对冲年化收益率:优于原始换手率因子 - ICIR:显著提升[45][48]
高频数据因子研究系列三:基于个股羊群效应的选股因子研究
广发证券· 2020-05-05 00:00
量化因子与构建方式 1. **因子名称**:羊群效应因子 - **因子的构建思路**:利用个股日内高频交易数据,结合LSV模型,构建个股短期内的羊群效应指标[10][34][39] - **因子具体构建过程**: - 计算特定时间段内的买方驱动单数量 $B(i,T)$ 和卖方驱动单数量 $S(i,T)$ - 计算羊群行为度量 $H(i,T)$ $$ H(i,T)=\left|{\frac{B(i,T)}{B(i,T)+S(i,T)}}-P_{T}\right|-\,A F(t,T) $$ 其中 $P_{T}$ 为所有股票的买单占其交易单比例的横截面平均值,$AF(i,T)$ 是调整项,其表达式为 $$ A F(i,T)=\sum_{k=0}^{N_{i,T}}{\binom{N_{i,T}}{k}}\,p_{T}^{k}(1-p_{T})^{N_{i,T}-}\left|{\frac{k}{N_{i,T}}}-\ p_{T}\right| $$ - 根据个股买单比例的相对水平,将羊群行为划分成买入羊群行为 $HB(i,T)$ 和卖出羊群行为 $HS(i,T)$ $$ H B(i,T)=-H(i,T)\;\;\;i f\;\frac{B(i,T)}{B(i,T)+S(i,T)}>\;P_{T} $$ $$ H S(i,T)=H(i,T)\;\;\;i f\;\frac{B(i,T)}{B(i,T)+S(i,T)}<\;P_{T} $$ - 使用天软数据库的高频数据,识别个股每笔买卖方向,统计买方和卖方驱动单[39][40][41] 2. **因子名称**:处理后的羊群效应因子 - **因子的构建思路**:对原始因子进行去极值、中性化和标准化处理,以提高因子的有效性[4][10][108] - **因子具体构建过程**: - 去极值:采用MAD法对异常数据进行剔除 $$ m d=m e d i a n\{x_{i},i=1,2,3\ldots,n\} $$ $$ M A D=\,m e d i a n(|x_{i}-m d|),i=1,2,3,\ldots,n $$ - 中性化:将原始因子值和股票的市值以及行业进行回归,取残差项作为新因子 $$ H(i,T)=\beta_{0}+\,\beta_{1}s i z e(i,T)+\beta_{2}i n d u s t r y(i,T)+\varepsilon(i,T) $$ - 标准化:使用因子的Z-Score值作为新的因子值 $$ H_{n e w}(i,T)=\frac{H(i,T)-\,m e a n(H(i,T))}{s t d(H(i,T))} $$ - 处理后的因子在全市场、中证800、中证500及沪深300板块内进行了详细地测算[108][110][111] 因子的回测效果 1. **原始羊群效应因子** - **全市场**: - IC均值:0.047 - 正IC占比:69.90% - 多头组合年化收益率:34.02% - 信息比率:1.05 - 多头组合相对中证500指数年化超额收益率:24.61% - 信息比率:2.59[4][46][59] 2. **处理后的羊群效应因子** - **全市场**: - IC均值:0.051 - 正IC占比:73.77% - 多头组合年化收益率:34.62% - 信息比率:1.09 - 多头组合相对中证500指数年化超额收益率:24.98% - 信息比率:2.84[4][111][125] 3. **中证800** - **原始因子**: - IC均值:0.043 - 正IC占比:64.68% - 多头组合年化收益率:22.01% - 信息比率:1.14 - 多头组合相对中证800指数年化超额收益率:16.27% - 信息比率:1.14[61][65][74] - **处理后因子**: - IC均值:0.046 - 正IC占比:69.15% - 多头组合年化收益率:24.63% - 信息比率:0.84 - 多头组合相对中证800指数年化超额收益率:18.84% - 信息比率:1.45[126][128][136] 4. **中证500** - **原始因子**: - IC均值:0.052 - 正IC占比:67.96% - 多头组合年化收益率:25.79% - 信息比率:0.81 - 多头组合相对中证500指数年化超额收益率:16.72% - 信息比率:1.87[76][79][89] - **处理后因子**: - IC均值:0.055 - 正IC占比:71.54% - 多头组合年化收益率:28.19% - 信息比率:0.88 - 多头组合相对中证500指数年化超额收益率:19.13% - 信息比率:2.35[137][139][147] 5. **沪深300** - **原始因子**: - IC均值:0.028 - 正IC占比:57.82% - 多头组合年化收益率:15.49% - 信息比率:0.56 - 多头组合相对沪深300指数年化超额收益率:9.19% - 信息比率:0.68[91][95][105] - **处理后因子**: - IC均值:0.031 - 正IC占比:60.21% - 多头组合年化收益率:20.36% - 信息比率:0.74 - 多头组合相对沪深300指数年化超额收益率:14.08% - 信息比率:1.25[148][150][156]
20200307_开源证券_金融工程专题_APM因子模型的进阶版--市场微观结构研究系列(5)_魏建榕,苏俊豪
开源证券· 2020-03-07 00:00
量化模型与构建方式 原始APM因子模型 - **模型名称**: 原始APM因子(APMraw) - **模型构建思路**: 通过分析上午和下午行情数据所蕴含信息量的差别,提取股票价格行为的日内模式差异[2][12] - **模型具体构建过程**: 1. 对选定股票,回溯过去20日数据,记录逐日上午的股票收益率 $r_{am}$ 和指数收益率 $R_{am}$;下午的股票收益率 $r_{pm}$ 和指数收益率 $R_{pm}$[12] 2. 将得到的40组上午与下午 $(r, R)$ 的收益率数据进行回归:$r = \alpha + \beta R + \epsilon$,得到残差项 $\epsilon$[12] 3. 上午残差记为 $\epsilon_{am}$,下午残差记为 $\epsilon_{pm}$,进一步计算每日上午与下午残差的差值 $\delta_t = \epsilon_{am} - \epsilon_{pm}$[12] 4. 构造统计量 $stat$ 来衡量上午与下午残差的差异程度,公式如下: $$ stat = \frac{\mu(\delta_t)}{\sigma(\delta_t)/\sqrt{N}} $$ 其中 $\mu$ 为均值,$\sigma$ 为标准差,$N$ 为样本数量[12] 5. 为消除动量因子的影响,将统计量 $stat$ 对动量因子进行横截面回归:$stat = \gamma_{20} + \beta_{momentum}$,其中 $\gamma_{20}$ 为股票过去20日的收益率,代表动量因子[13] 6. 回归得到的残差值作为因子[13] - **模型评价**: 样本内表现优异,但样本外表现略逊,尤其在2019年出现连续回撤[3][13] 改进APM因子模型 - **模型名称**: 改进APM因子(APMnew) - **模型构建思路**: 通过调整原始APM因子使用的数据时段,将上午收益替换为隔夜收益,以提高因子稳定性和预测能力[4][19] - **模型具体构建过程**: 1. 在原始APM因子的第一步中,用隔夜收益 $r_{overnight}$ 替代上午收益 $r_{am}$,指数收益也相应替换为隔夜的指数收益 $R_{overnight}$[26] 2. 其余步骤保持不变,最终得到改进因子 $APMnew$[26] - **模型评价**: 改进后的因子在样本内和样本外均表现优异,尤其在2019年显著优于原始因子[4][26] OVP因子与AVP因子 - **因子名称**: OVP因子与AVP因子 - **因子构建思路**: 结合APM因子方法论与W式切割方法,通过分时段收益数据构造反转属性因子[38] - **因子具体构建过程**: 1. 对选定股票,回溯过去20个交易日数据[38] 2. 将股票逐日的涨跌幅拆分成隔夜、上午、下午三个阶段,分别加总,所得和依次记作 $RO$、$RA$、$RP$[38] 3. 构造因子 $OVP = RO - RP$ 和 $AVP = RA - RP$[38] - **因子评价**: OVP因子表现显著优于AVP因子,尤其在预测能力和稳定性方面[38][40] --- 模型的回测效果 原始APM因子(APMraw) - 年化收益率: 样本内15.90%,样本外6.41%[3][13] - 信息比率(IR): 样本内2.84,样本外略低[3][13] - 最大回撤: 样本内2.52%,样本外5.72%[3][13] - 月度胜率: 样本内78.6%,样本外略低[3][13] 改进APM因子(APMnew) - 年化收益率: 12.81%[29] - 信息比率(IR): 3.17[29] - 最大回撤: 2.32%[29] - 月度胜率: 81.25%[29] OVP因子与AVP因子 - OVP因子: - 年化收益率: 18.04%[41] - 信息比率(IR): 4.17[41] - 最大回撤: 2.21%[41] - 月度胜率: 86.25%[41] - AVP因子: - 年化收益率: 3.00%[41] - 信息比率(IR): 0.15[41] - 最大回撤: 11.32%[41] - 月度胜率: 53.75%[41] --- 因子的回测效果 APM因子系列 - **APMraw**: 上午(9:30-11:30)与下午(13:00-15:00)收益差异[32] - **APMnew**: 隔夜与下午(13:00-15:00)收益差异[32] - **APM_1**: 隔夜与下午(14:00-15:00)收益差异[32] - **APM_2**: 上午(9:30-10:30)与下午(14:00-15:00)收益差异[32] - **APM_3**: 上午(10:30-11:30)与下午(13:00-14:00)收益差异[32] 回测表现 - 使用隔夜数据的因子(APMnew、APM_1)在2019年表现较好[35] - 使用日内交易数据的因子(APM_2、APM_3)表现逊色,尤其APM_3因子由于中间时段成交寡淡,难以提炼有效信息[35]
20200209_开源证券_金融工程专题_聪明钱因子模型的2_0版本--市场微观结构研究系列(3)_魏建榕,傅开波,高鹏
开源证券· 2020-02-09 00:00
量化因子与构建方式 聪明钱因子(原始模型) - **因子名称**:聪明钱因子[5][15] - **因子的构建思路**:通过分钟行情数据的价量信息,识别机构参与交易的多寡,构造跟踪聪明钱的选股因子[5][15] - **因子具体构建过程**: 1. 回溯选定股票过去10个交易日的分钟行情数据[17] 2. 构造聪明度指标 $ S_t = R_t / \sqrt{V_t} $,其中 $ R_t $ 为第 $ t $ 分钟涨跌幅,$ V_t $ 为第 $ t $ 分钟成交量[17] 3. 按 $ S_t $ 从大到小排序,取成交量累积占比前20%的分钟视为聪明钱交易[16][17] 4. 计算聪明钱交易的成交量加权平均价 $ VWAP_{smart} $[17] 5. 计算所有交易的成交量加权平均价 $ VWAP_{all} $[17] 6. 构造聪明钱因子 $ Q = VWAP_{smart} / VWAP_{all} $[17] - **因子评价**:逻辑简洁,样本内表现良好,但样本外表现逐渐减弱[15][23] 聪明钱因子(改进模型) - **因子名称**:改进后的聪明钱因子[7][23] - **因子的构建思路**:通过重新考察聪明度指标 $ S $ 的构造方式,优化聪明钱划分,提升选股能力[7][23] - **因子具体构建过程**: 1. 将分钟成交量 $ V $ 的指数项定义为可变参数 $ \beta $,构造一般化公式 $ S = |R| / (V^\beta) $[24] 2. 测试不同 $ \beta $ 值下的因子选股能力,发现当 $ \beta = 0.1 $ 时信息比率达到最优[24][28] 3. 进一步尝试对分钟成交量作对数变换,构造公式 $ S = |R| / \ln(V) $[31][32] - **因子评价**:改进后的因子选股能力显著提升,尤其在中小市值股票中表现更优[7][28][43] 不同 $ S $ 指标的构造方式 - **因子名称**:基于不同 $ S $ 指标的聪明钱因子[31][32] - **因子的构建思路**:尝试不同的聪明度指标构造方式,优化因子选股能力[31][32] - **因子具体构建过程**: 1. $ S_1 = V $:单独考虑分钟成交量[32] 2. $ S_2 = \text{rank}(R) + \text{rank}(V) $:分钟涨跌幅绝对值分位排名与分钟成交量分位排名之和[32] 3. $ S_3 = R / \ln(V) $:分钟涨跌幅绝对值除以分钟成交量对数值[32] - **因子评价**:对分钟成交量作对数变换构造的因子($ S_3 $)选股能力最强[32] --- 因子的回测效果 原始聪明钱因子 - **信息比率**:1.69[32] - **IC均值**:未明确列出[32] - **多空对冲净值**:样本外表现逐渐减弱[23][27] 改进后的聪明钱因子(基于 $ \beta = 0.1 $) - **信息比率**:3.67[28] - **IC均值**:未明确列出[28] - **多空对冲净值**:显著提升,尤其在中证1000成分股中表现最佳[44][50] 改进后的聪明钱因子(基于对数成交量) - **信息比率**:3.74[32] - **IC均值**:-0.050[32] - **多空对冲净值**:对中小市值股票效果更优[48][50] 不同 $ S $ 指标的回测效果 - **$ S_1 = V $**: - 信息比率:2.03[32] - IC均值:-0.036[32] - 多空对冲净值:未明确列出[32] - **$ S_2 = \text{rank}(R) + \text{rank}(V) $**: - 信息比率:2.61[32] - IC均值:-0.043[32] - 多空对冲净值:未明确列出[32] - **$ S_3 = R / \ln(V) $**: - 信息比率:3.74[32] - IC均值:-0.050[32] - 多空对冲净值:未明确列出[32]
20191223_开源证券_金融工程专题_市场微观结构研究系列(1)--A股反转之力的微观来源_傅开波,魏建榕_2019-12-20
开源证券· 2019-12-23 00:00
量化模型与构建方式 W式切割模型 - **模型名称**:W式切割模型 - **模型构建思路**:通过对过去20日的涨跌幅进行切割,分解出反转与动量的成分,以提高反转因子的收益稳健性[11][4] - **模型具体构建过程**: 1. 对选定股票S,回溯取其过去20日的数据[12][4] 2. 计算股票S每日的平均单笔成交金额(成交金额/成交笔数)[12][4] 3. 单笔成交金额高的10个交易日,涨跌幅加总,记作M_high[12][4] 4. 单笔成交金额低的10个交易日,涨跌幅加总,记作M_low[12][4] 5. 理想反转因子M = M_high - M_low[12][4] 6. 对所有股票,都进行以上操作,计算各自的理想反转因子M[12][4] - **公式**: $ M = M_{high} - M_{low} $ 公式中,$ M_{high} $ 表示单笔成交金额高的10个交易日的涨跌幅加总,$ M_{low} $ 表示单笔成交金额低的10个交易日的涨跌幅加总[12][4] - **模型评价**:W式切割模型简洁有效,显著优于传统反转因子Ret20,其收益稳健性更强[11][4] 新W式切割模型 - **模型名称**:新W式切割模型 - **模型构建思路**:用分位数代替平均值作为切割标准,以获取更多微观信息并优化反转因子的表现[17][18] - **模型具体构建过程**: 1. 对选定股票S,回溯取其过去20日的数据[18] 2. 计算股票S每日逐笔成交金额分布的1/16分位值[18] 3. 1/16分位值高的10个交易日,涨跌幅加总,记作M_high[18] 4. 1/16分位值低的10个交易日,涨跌幅加总,记作M_low[18] 5. 理想反转因子M = M_high - M_low[18] 6. 对所有股票,都进行以上操作,计算各自的理想反转因子M[18] - **公式**: $ M = M_{high} - M_{low} $ 公式中,$ M_{high} $ 表示1/16分位值高的10个交易日的涨跌幅加总,$ M_{low} $ 表示1/16分位值低的10个交易日的涨跌幅加总[18] - **模型评价**:随着分位值的提高,M_high的反转特性增强,M_low逐渐呈现动量特性,切割效果显著优化[21][30] 高分位反转因子 - **因子名称**:M_high_13/16 - **因子构建思路**:采用高分位值作为切割标准,选取高分位值较高的交易日以增强反转特性[30] - **因子具体构建过程**: 1. 对选定股票S,回溯取其过去20日的数据[30] 2. 计算股票S每日逐笔成交金额分布的13/16分位值[30] 3. 13/16分位值高的10个交易日,涨跌幅加总,记作M_high_13/16[30] - **公式**: $ M_{high\_13/16} = \text{涨跌幅加总(13/16分位值高的10个交易日)} $[30] - **因子评价**:M_high_13/16因子保留了长期收益特征,同时成功避免了大幅回撤,表现稳健[31][30] --- 模型的回测效果 W式切割模型 - **信息比率(IR)**:2.51[11] - **月度胜率**:74%[11] 新W式切割模型 - **信息比率(IR)**:随着分位值提高,M_high的IR值显著增强,最佳分位值未明确[24][30] 高分位反转因子(M_high_13/16) - **信息比率(IR)**:2.00[31] - **月度胜率**:72.0%[31] - **IC**:-0.070[31] - **rankIC**:-0.087[31] --- 因子的回测效果 理想反转因子(M) - **信息比率(IR)**:2.51[11] - **月度胜率**:74%[11] 新W式切割因子(M_high与M_low) - **M_high的IC值**:随着分位值提高,IC绝对值逐渐增大,呈现更强反转特性[21][24] - **M_low的IC值**:随着分位值提高,IC逐渐从负值转为正值,呈现动量特性[21][24] 高分位反转因子(M_high_13/16) - **信息比率(IR)**:2.00[31] - **月度胜率**:72.0%[31] - **IC**:-0.070[31] - **rankIC**:-0.087[31]
量化资产配置专题报告
爱建证券· 2019-08-27 07:07
量化因子与构建方式 1. **BL因子** - **因子构建思路**:BL模型结合了投资者对资产的预期回报和市场均衡回报,从而形成一个新的预期回报向量[7][14] - **因子的公式**: $$ \mu_{\mathrm{bl}}=[\mathrm{P^{\prime}\Omega^{-1}P+(\tau\Sigma)^{-1}]^{-1}[P^{\prime}\Omega^{-1}Q+(\tau\Sigma)^{-1}\Pi]} $$ $$ \Sigma_{\mathrm{bl}}=\Sigma+[(\tau\Sigma)^{-1}+(\mathrm{P}^{\prime}\Omega^{-1}\mathrm{P})]^{-1} $$ 公式中,$\mu_{\mathrm{bl}}$是资产预期回报,$\Sigma_{\mathrm{bl}}$是资产的协方差矩阵,$P$是观点矩阵,$Q$是观点向量,$\Omega$是观点不确定性矩阵,$\tau$是先验分布的信心常数,$\Sigma$是资产历史回报的协方差矩阵,$\Pi$是隐含均衡回报向量[19][20][23] - **文章对因子的评价**:结合了回归树的BL模型在资产配置上存在一定的价值[51] 2. **回归树因子** - **因子构建思路**:回归树是机器学习中的一种监督学习回归算法,适用于应对变量间相关性较高的宏观经济变量[2][24] - **因子的公式**:无具体公式,回归树通过一系列不等式分支来减小均方误差,最终呈现出类似树的形状[31][33] - **文章对因子的评价**:回归树视角下的宏观经济变量与大类资产回报之间的关系为主观预期提供了一定的参考价值[2][49] 因子的具体指标值 1. **BL因子** - **信息比率(IR)**:无具体值 - **夏普比率**:无具体值 - **最大回撤**:13.71%[47] - **累计收益**:74%[47] 2. **回归树因子** - **信息比率(IR)**:无具体值 - **夏普比率**:无具体值 - **最大回撤**:无具体值 - **累计收益**:无具体值
结合回归树的 BL 资产配置模型的实践运用
爱建证券· 2019-08-27 00:00
量化模型与构建方式 1. 模型名称:Black-Litterman模型(BL模型) - **模型构建思路**:BL模型结合了投资者的主观观点和市场均衡回报,形成新的预期回报向量,能够在一定程度上减少对历史数据的依赖[6][7][9] - **模型具体构建过程**: 1. **核心参数**: - 风险厌恶系数($\lambda$):衡量投资者对风险的态度,公式为 $\lambda = \frac{\mu_B}{\sigma_B \sqrt{W_{mkt}' \Sigma W_{mkt}}}$,其中$\mu_B$和$\sigma_B$分别为基准指数的均值回报和标准差,$\Sigma$为样本的协方差矩阵[23] - 市场均衡回报向量($\Pi$):公式为 $\Pi = \lambda \Sigma W_{mkt}$,$W_{mkt}$为市值权重[23] - 观点矩阵($P$)、观点值($Q$)和观点不确定性($\Omega$):用于表达投资者的主观观点及其不确定性[20][21] - 先验分布信心常数($\tau$):通常取值在0.01到0.05之间,或根据样本大小计算$\tau = 1/Obs$[22] 2. **贝叶斯法则**:结合市场均衡回报和主观观点,形成新的回报分布,公式为: $$ \mu_{bl} = [P' \Omega^{-1} P + (\tau \Sigma)^{-1}]^{-1} [P' \Omega^{-1} Q + (\tau \Sigma)^{-1} \Pi] $$ $$ \Sigma_{bl} = \Sigma + [( \tau \Sigma)^{-1} + (P' \Omega^{-1} P)]^{-1} $$[15][19][47] 3. **优化权重**:基于新的回报分布,优化资产权重,约束条件为权重和为1且非负[47] - **模型评价**:BL模型的优点是可以灵活地加入主观观点,减少对历史数据的依赖,但主观观点的准确性对结果影响较大[7][51] 2. 模型名称:结合回归树的BL模型 - **模型构建思路**:通过回归树模型估计宏观经济变量与大类资产回报之间的关系,生成BL模型的主观观点($Q$)和观点不确定性($\Omega$)[2][35] - **模型具体构建过程**: 1. **回归树模型**: - 回归树是一种监督学习算法,适用于处理变量间相关性较高的情况,计算过程快速[2][24] - 通过分支条件(如减小均方误差)生成叶子节点,最终输出预测值[31][33] 2. **主观观点的生成**: - 自变量为10个宏观经济指标(如GDP、工业增加值、固定资产投资等),因变量为四类资产的回报(权益、固收、货币、商品)[36][38] - 使用回归树模型训练样本内数据,预测样本外资产回报,生成$Q$[44] 3. **观点不确定性的生成**: - 使用线性回归的标准化残差的方差作为$\Omega$[44] 4. **结合BL模型**:将回归树生成的$Q$和$\Omega$输入BL模型,完成资产配置[44][47] - **模型评价**:结合回归树的BL模型在资产配置中表现较好,能够为主观观点提供科学的定量支持[2][49] --- 模型的回测效果 1. BL模型 - **区间回报**:约49%(基准为中证时钟配置策略指数)[47] - **最大回撤**:约7.88%[47] 2. 结合回归树的BL模型 - **区间回报**:约74%(同期沪深300为29%,中证时钟配置策略指数为49%)[47] - **最大回撤**:约13.71%(同期沪深300为40.56%,中证时钟配置策略指数为7.88%)[47]
高频数据因子研究系列二:基于日内高频数据的短周期选股因子研究
广发证券· 2019-08-15 00:00
量化模型与构建方式 1. **模型名称**:回归模型 **模型构建思路**:基于个股日内高频数据,构建已实现波动(RVol)、已实现偏度(RSkew)、已实现峰度(RKurt)因子指标,并通过回归模型分析残差标准差对个股收益率的区分度[5] **模型具体构建过程**: - 首先计算个股在交易日t的分钟级别收益率: $$r_{t,i} = \ln(P_{t,i}) - \ln(P_{t,i-1})$$ 其中,\(P_{t,i}\)表示交易日t第i分钟的对数价格[32] - 计算已实现方差(Realized Variance): $$RDVar_t = \sum_{i=1}^{N} r_{t,i}^2$$ - 计算已实现波动率(Realized Volatility): $$RDVol_t = \sqrt{RDVar_t}$$ - 计算已实现偏度(Realized Skewness)和已实现峰度(Realized Kurtosis): $$RDSkew_t = \frac{\sum_{i=1}^{N} r_{t,i}^3}{(RDVar_t)^{3/2}}$$ $$RDKurt_t = \frac{\sum_{i=1}^{N} r_{t,i}^4}{(RDVar_t)^2}$$ - 计算每日变化量: $$\Delta Vol_t = RDVol_t - RDVol_{t-1}$$ $$\Delta Skew_t = RDSkew_t - RDSkew_{t-1}$$ $$\Delta Kurt_t = RDKurt_t - RDKurt_{t-1}$$ - 将以上变量代入回归模型: $$r_{t,i} = \alpha + \beta_1 RDVol_t + \beta_2 \Delta Vol_t + \beta_3 \Delta Skew_t + \beta_4 \Delta Kurt_t + \epsilon_{t,i}$$ - 取回归模型的残差标准差作为因子指标,分析其对个股收益率的区分度[34] 量化因子与构建方式 1. **因子名称**:已实现波动率(RVol) **因子构建思路**:通过个股日内高频数据计算已实现波动率,衡量个股的波动性[5] **因子具体构建过程**: - 计算个股在交易日t的分钟级别收益率: $$r_{t,i} = \ln(P_{t,i}) - \ln(P_{t,i-1})$$ - 计算已实现方差: $$RDVar_t = \sum_{i=1}^{N} r_{t,i}^2$$ - 计算已实现波动率: $$RDVol_t = \sqrt{RDVar_t}$$[31] 2. **因子名称**:已实现偏度(RSkew) **因子构建思路**:通过个股日内高频数据计算已实现偏度,衡量个股收益率的偏态分布[5] **因子具体构建过程**: - 计算已实现偏度: $$RDSkew_t = \frac{\sum_{i=1}^{N} r_{t,i}^3}{(RDVar_t)^{3/2}}$$[33] 3. **因子名称**:已实现峰度(RKurt) **因子构建思路**:通过个股日内高频数据计算已实现峰度,衡量个股收益率的峰态分布[5] **因子具体构建过程**: - 计算已实现峰度: $$RDKurt_t = \frac{\sum_{i=1}^{N} r_{t,i}^4}{(RDVar_t)^2}$$[33] 模型的回测效果 1. **回归模型**: - 全市场选股: - IC均值:-0.036 - 负IC占比:63.5% - 多头组合年化收益率:32.39% - 信息比率(IR):0.91 - 相对中证800年化超额收益率:24.52% - 信息比率(IR):1.89[6] - 中证500选股: - IC均值:-0.048 - 负IC占比:66.2% - 多头组合年化收益率:30.32% - 相对空头组合年化超额收益率:30.73% - 信息比率(IR):2.76[6] 因子的回测效果 1. **已实现波动率(RVol)**: - 全市场选股: - IC均值:-0.036 - 负IC占比:63.5%[6] - 中证500选股: - IC均值:-0.048 - 负IC占比:66.2%[6] 2. **已实现偏度(RSkew)**: - 全市场选股: - IC均值:-0.036 - 负IC占比:63.5%[6] - 中证500选股: - IC均值:-0.048 - 负IC占比:66.2%[6] 3. **已实现峰度(RKurt)**: - 全市场选股: - IC均值:-0.036 - 负IC占比:63.5%[6] - 中证500选股: - IC均值:-0.048 - 负IC占比:66.2%[6]
深度学习研究报告之六:深度学习在指数增强策略上的应用
广发证券· 2019-04-03 00:00
量化模型与构建方式 深度学习选股模型 - **模型名称**:深度学习选股模型 - **模型构建思路**:通过深层神经网络,建立股票因子和未来收益率之间的关系,根据对个股收益率的预测进行选股[18] - **模型具体构建过程**: - 输入层X包含156个特征,包括传统选股因子、价量技术指标和行业属性变量[18] - 模型采用7层深层神经网络,包括输入层X、输出层Y和5个隐含层H1、H2、H3、H4、H5[19] - 输出层Y有3个节点,表示股票未来走势的三种可能性:上涨、平盘、下跌[21] - 使用softmax激活函数,预测值为$\hat{\mathbf{y}}=[\hat{\mathcal{V}}_{1}\quad\hat{\mathcal{V}}_{2}\quad\hat{\mathcal{V}}_{3}]^{T}=\left[{\frac{e^{z_{1}}}{\sum_{i=1,2,3}e^{z_{i}}}}\quad{\frac{e^{z_{2}}}{\sum_{i=1,2,3}e^{z_{i}}}}\quad{\frac{e^{z_{3}}}{\sum_{i=1,2,3}e^{z_{i}}}}\right]^{T}$[21] - 损失函数采用交叉熵,优化目标为$E(w)=-\sum_{n=1}^{N}\sum_{k=1}^{K}[y_{n k}\log{\hat{y}}_{n k}+(1-y_{n k})\log(1-{\hat{y}}_{n k})]$[21] - 采用Dropout和Batch Normalization技术提高模型的泛化能力和训练效率[23] - 模型回测期为2011年1月至2019年2月,每半年更新一次,训练采用最近6年的市场数据[24] - **模型评价**:深度学习选股模型能够从因子的非线性特征中获取额外信息,具有较好的应用前景[15] 组合优化模型 - **模型名称**:组合优化模型 - **模型构建思路**:在满足行业中性和风格中性约束,以及控制组合年化跟踪误差的约束条件下,以最大化组合收益率为目标函数,对组合权重进行优化[29] - **模型具体构建过程**: - 结构化多因子风险模型将股票收益率分解为因子暴露、因子收益率和特质因子收益率三个部分,公式为$r_{i}=f_{m}+\sum_{k=1}^{I}x_{i k}^{I}f_{k}^{I}+\sum_{k=1}^{S}x_{i k}^{s}f_{k}^{s}+u_{i}$[25] - 股票收益率的协方差矩阵为$V=X F X^{T}+\Delta$[26] - 组合优化问题的目标函数为$\operatorname*{max}_{w}\,R_{p}(w)-T C(w,w_{0})$,约束条件包括控制跟踪误差、行业中性、风格中性、不允许做空和满仓运行[29][30][32] - 组合的预期收益率$R_{p}(w)=f_{D L}w^{\mathrm{T}}t$,交易成本$T C(w,w_{0})=t c\times{\frac{1}{2}}\|w-w_{0}\|_{1}$[30][31] 模型的回测效果 - **中证1000指数增强策略** - 年化超额收益:成份股内选股27.56%,全市场选股29.07%[50][84] - 超额收益最大回撤:成份股内选股-4.84%,全市场选股-5.09%[50][84] - 年换手率:成份股内选股15.07倍,全市场选股15.66倍[55][84] - 年化跟踪误差:成份股内选股6.11%,全市场选股6.42%[55][84] - 信息比:成份股内选股3.93,全市场选股3.77[55][84] - **中证500指数增强策略** - 年化超额收益:成份股内选股15.25%,全市场选股14.67%[62][84] - 超额收益最大回撤:成份股内选股-4.55%,全市场选股-4.55%[62][84] - 年换手率:成份股内选股14.36倍,全市场选股15.22倍[67][84] - 年化跟踪误差:成份股内选股5.30%,全市场选股5.79%[67][84] - 信息比:成份股内选股2.78,全市场选股2.74[67][84] - **沪深300指数增强策略** - 年化超额收益:成份股内选股7.26%,全市场选股13.11%[74][84] - 超额收益最大回撤:成份股内选股-4.36%,全市场选股-8.20%[74][84] - 年换手率:成份股内选股7.99倍,全市场选股8.71倍[79][84] - 年化跟踪误差:成份股内选股4.42%,全市场选股5.59%[79][84] - 信息比:成份股内选股1.74,全市场选股1.53[79][84] 量化因子与构建方式 深度学习因子 - **因子名称**:深度学习因子 - **因子的构建思路**:通过深层神经网络预测股票未来收益率,生成股票的上涨打分作为因子[23] - **因子具体构建过程**: - 使用深层神经网络模型,输入层包含156个特征,输出层有3个节点,表示股票未来走势的三种可能性[18][19][21] - 采用softmax激活函数,预测值为$\hat{\mathbf{y}}=[\hat{\mathcal{V}}_{1}\quad\hat{\mathcal{V}}_{2}\quad{\hat{\mathcal{V}}}_{3}]^{T}$[21] - 损失函数采用交叉熵,优化目标为$E(w)=-\sum_{n=1}^{N}\sum_{k=1}^{K}[y_{n k}\log{\hat{y}}_{n k}+(1-y_{n k})\log(1-{\hat{y}}_{n k})]$[21] - 采用Dropout和Batch Normalization技术提高模型的泛化能力和训练效率[23] - 模型回测期为2011年1月至2019年2月,每半年更新一次,训练采用最近6年的市场数据[24] - **因子评价**:深度学习因子能够从因子的非线性特征中获取额外信息,具有较好的应用前景[15] 因子的回测效果 - **中证1000指数增强策略** - IC均值:0.095[46] - IC_IR:0.795[46] - **中证500指数增强策略** - IC均值:0.069[58] - IC_IR:0.691[58] - **沪深300指数增强策略** - IC均值:0.039[70] - IC_IR:0.287[70]
20190220-国盛证券-量化专题报告:多因子系列之二:Alpha因子高维度与非线性问题——基于Lasso的收益预测模型
国盛证券· 2019-02-20 00:00
量化模型与构建方式 1. Lasso 模型 - **模型构建思路**:Lasso 模型通过在回归中加入 L1 正则项,解决高维度下因子筛选和收益预测的问题[2] - **模型具体构建过程**: 1. 线性回归模型:$ \text{min} \frac{\|Y-X\beta\|_{2}^{2}}{n} + \lambda \|\beta\|_{1} $[23] 2. 训练样本长度 M 个月,调节参数通过训练数据得到[24] 3. 每个月月底,将前 M 个月的数据作为训练样本,求解 Lasso 的参数,预测股票下个月的收益[25] - **模型评价**:Lasso 模型相比传统模型具有更好的收益预测能力,但在因子筛选方面效果一般[2][27] 2. Adaptive Lasso 模型 - **模型构建思路**:在 Lasso 模型基础上改进,赋予不同因子权重不同的惩罚项,解决 Lasso 模型一致性条件过于严格的问题[2][28] - **模型具体构建过程**: 1. 首先进行 Lasso 回归,得到每个变量的系数 2. 将变量的系数作为权重,进行第二次回归:$ \text{min} \frac{\|Y-X\beta\|_{2}^{2}}{n} + \lambda \sum_{j=1}^{p} \frac{|\beta_{j}|}{|\beta_{\text{int},j}|} $[29] - **模型评价**:Adaptive Lasso 在因子筛选和收益预测方面均优于 Lasso 模型[28][32] 3. Group Lasso 模型 - **模型构建思路**:考虑因子和收益的非线性关系,通过二次样条函数拟合因子和收益的非线性关系,并用 Group Lasso 方法进行估计[3][50] - **模型具体构建过程**: 1. 定义股票的期望收益:$ m_{t}(f_{1},\dots,f_{s}) = E[R_{it}|F_{1,it-1}=f_{1},\dots,F_{S,it-1}=f_{S}] $[53] 2. 用二次样条函数拟合因子和收益的非线性关系:$ m_{ts}(f) \approx \sum_{k=1}^{L+2} \beta_{tsk} p_{k}(f) $[57] 3. 用 Group Lasso 方法进行估计:$ \text{min} \sum_{i=1}^{N} \left( R_{it} - \sum_{s=1}^{S} \sum_{k=1}^{L+2} \beta_{sk} p_{k}(f_{s,it-1}) \right)^{2} + \lambda \sum_{s=1}^{S} \left( \sum_{k=1}^{L+2} \beta_{sk}^{2} \right)^{\frac{1}{2}} $[61] - **模型评价**:Group Lasso 方法在捕捉因子和收益的非线性关系方面表现优秀,预测能力优于线性模型[50][69] 模型的回测效果 Lasso 模型 - **第一组年化收益**:0.143 - 0.161[26] - **第一组年化波动**:0.044 - 0.050[26] - **信息比率**:2.853 - 3.296[26] - **IC**:0.088 - 0.096[26] - **ICIR**:4.523 - 5.412[26] - **因子个数**:18.656 - 53.215[26] - **MSE**:0.12566 - 0.12617[26] Adaptive Lasso 模型 - **第一组年化收益**:0.147 - 0.162[31] - **第一组年化波动**:0.045 - 0.051[31] - **信息比率**:2.891 - 3.285[31] - **IC**:0.089 - 0.097[31] - **ICIR**:4.894 - 5.409[31] - **因子个数**:18.516 - 37.849[31] - **MSE**:0.12568 - 0.12619[31] Group Lasso 模型 - **第一组年化收益**:0.149 - 0.190[63][67] - **第一组年化波动**:0.039 - 0.066[63][67] - **信息比率**:2.420 - 3.630[63][67] - **IC**:0.087 - 0.094[63][67] - **ICIR**:3.942 - 5.004[63][67] - **MSE**:0.125568 - 0.126164[63][67]