Workflow
20240414_开源证券_金融工程专题_形态识别:均线的收敛与发散_金工研究团队_20240414
开源证券· 2024-04-14 00:00
量化因子与构建方式 1. 因子名称:价格收敛因子(Price Convergence Factor, PCF) - **因子的构建思路**:通过不同周期价格均线的收敛程度,判断个股是否处于变盘点前夕[17][18] - **因子具体构建过程**: - 选取个股当日收盘价,计算不同周期(5、10、20、60、120日)的均线 - 计算这些均线之间的标准差,作为均线收敛与发散的衡量指标 - 对标准差结果取对数并取负值,使得因子值预测方向为正 - 使用后复权价格计算均线,未剔除截面上不同个股价格数值的量纲差异 - 公式为: $ PCF = -\log(1 + \text{std}(P_{1}, P_{5}, P_{10}, P_{20}, P_{60}, P_{120})) $ 其中,$ P_{1} $为当日收盘价[20] - **因子评价**:价格收敛因子对未来个股收益率具有正向预测能力,但表现随市场环境变化波动较大,选股区分度较弱[20][25] 2. 因子名称:成交量收敛因子(Volume Convergence Factor, VCF) - **因子的构建思路**:通过成交量均线的收敛与发散,衡量市场投资者交易意愿的变化,进而预测股价位置的高低[26] - **因子具体构建过程**: - 仿照价格收敛因子的构建方式,计算不同周期(5、10、20、60、120日)成交量均线的标准差 - 对标准差结果取对数并取负值,得到成交量收敛因子[26] - **因子评价**:表现优异,能够显著区分低位缩量和高位放量个股,分组收益单调[27] 3. 因子名称:价量双收敛因子(Price Volume Convergence Factor, PVCF) - **因子的构建思路**:融合价格均线和成交量均线的收敛信息,综合判断个股是否处于低位变盘前夕[30][34] - **因子具体构建过程**: - 将价格收敛因子(PCF)和成交量收敛因子(VCF)在截面进行标准化后加总,得到价量双收敛因子[34] - **因子评价**:相比单一价量因子,表现有所提升,弥补了单一因子的不足[37] 4. 因子名称:成交额收敛因子(Amount Convergence Factor, ACF) - **因子的构建思路**:通过成交额均线的收敛与发散,直接替代价量融合因子,捕捉低波动低关注度个股的超额收益能力[43][44] - **因子具体构建过程**: - 按照价格收敛因子的构建方式,计算成交额均线的标准差 - 对标准差结果取对数并取负值,得到成交额收敛因子[43] - **因子评价**:相比价量双收敛因子,预测能力进一步提升,分组收益严格单调[44][46] 5. 因子名称:换手率收敛因子(Turnover Rate Convergence Factor, TRCF) - **因子的构建思路**:通过换手率均线的收敛与发散,刻画个股交易活跃度的相对水平,剔除量纲差异[49] - **因子具体构建过程**: - 计算不同周期(5、10、20、60、120日)换手率均线的标准差 - 对标准差结果取对数并取负值,得到换手率收敛因子[49] - **因子评价**:表现最优,市值行业中性化后绩效显著提升,是多个因子中表现最优的因子[50][58] --- 因子的回测效果 1. 价格收敛因子(PCF) - RankIC均值:2.78%[20] - 年化RankICIR:0.94[20] 2. 成交量收敛因子(VCF) - RankIC均值:7.69%[27] - 年化RankICIR:3.56[27] 3. 价量双收敛因子(PVCF) - RankIC均值:9.11%[34] - 年化RankICIR:2.94[34] - 多空对冲年化收益率:21.05%[40] - 基准对冲年化收益率:7.85%[40] 4. 成交额收敛因子(ACF) - RankIC均值:10.30%[43] - 年化RankICIR:3.57[43] 5. 换手率收敛因子(TRCF) - RankIC均值:10.31%[50] - 年化RankICIR:4.19[50] - 月频调仓多空对冲年化收益率:29.15%[98] - 周频调仓多空对冲年化收益率:53.09%[98]
多因子ALPHA系列报告之(五十二):基于融资融券因子研究
广发证券· 2024-02-19 00:00
量化因子与构建方式 融资买入额占融资余额比因子 - **因子的构建思路** 通过当期融资买入额除以融资余额,反映市场多空情绪及个股的融资活跃度[8][37][41] - **因子具体构建过程** 公式为: $ 融资买入额占融资余额比因子 = \frac{\text{当期融资买入额}}{\text{融资余额}} $ 该因子在全市场、中证500和中证1000三个股票池中分别进行计算,并通过分档测试和IC值评估其预测能力[8][37][41] - **因子评价** 在全市场和中证1000中表现优异,IC值均为负,因子值越小的个股未来收益越高,具有较好的分层单调性和超额收益能力[8][198][260] 融券余额占比因子 - **因子的构建思路** 通过当期融券余额除以流通市值,衡量个股的融券活跃度及市场对其看空情绪[8][37][41] - **因子具体构建过程** 公式为: $ 融券余额占比因子 = \frac{\text{当期融券余额}}{\text{流通市值}} $ 该因子在中证500和中证1000股票池中分别进行计算,并通过分档测试和IC值评估其预测能力[8][37][41] - **因子评价** 在中证500和中证1000中表现突出,IC值均为负,因子值越小的个股未来收益越高,分层效果显著,尤其在中证1000中表现最佳[8][198][260] --- 因子的回测效果 融资买入额占融资余额比因子 - **全市场** - 调仓周期5天:IC均值-4.27%,IC胜率61.94%,多头相对基准策略累计超额收益率28.54%[76][260][261] - 调仓周期10天:IC均值-5.20%,IC胜率63.87%,多头相对基准策略累计超额收益率13.33%[76][260][261] - 调仓周期20天:IC均值-5.21%,IC胜率64.58%,多头相对基准策略累计超额收益率0.73%[76][260][261] - **中证1000** - 调仓周期5天:IC均值-5.55%,IC胜率63.92%,多头相对基准策略累计超额收益率65.47%[200][260][261] - 调仓周期10天:IC均值-7.36%,IC胜率68.58%,多头相对基准策略累计超额收益率40.66%[200][260][261] - 调仓周期20天:IC均值-7.95%,IC胜率63.92%,多头相对基准策略累计超额收益率54.48%[200][260][261] 融券余额占比因子 - **中证500** - 调仓周期5天:IC均值-3.39%,IC胜率64.95%,多头相对基准策略累计超额收益率43.86%[134][260][261] - 调仓周期10天:IC均值-3.69%,IC胜率65.98%,多头相对基准策略累计超额收益率30.75%[134][260][261] - 调仓周期20天:IC均值-4.15%,IC胜率65.98%,多头相对基准策略累计超额收益率24.62%[134][260][261] - **中证1000** - 调仓周期5天:IC均值-3.28%,IC胜率61.60%,多头相对基准策略累计超额收益率128.65%[199][260][261] - 调仓周期10天:IC均值-4.22%,IC胜率64.43%,多头相对基准策略累计超额收益率165.77%[199][260][261] - 调仓周期20天:IC均值-4.42%,IC胜率63.92%,多头相对基准策略累计超额收益率136.89%[199][260][261]
20240111-中国银河-DQN模型实现的股指期权动态复制方法与应用——以沪深300指数为例
中国银河· 2024-01-11 00:00
量化模型与构建方式 1. 模型名称:Delta复制模型 - **模型构建思路**:通过动态调整标的资产仓位,使得组合收益与期权收益相近,从而规避期权时间价值的损耗[12][19][20] - **模型具体构建过程**: 1. 使用Black-Scholes模型计算期权价格,公式为: $C = S_t N(d_1) - K e^{-rT} N(d_2)$ 其中: $d_1 = \frac{\ln(S_t/K) + (r + \sigma^2/2)T}{\sigma\sqrt{T}}$ $d_2 = d_1 - \sigma\sqrt{T}$ $C$为期权价格,$S_t$为标的资产价格,$K$为行权价格,$r$为无风险收益率,$T$为到期时间,$\sigma$为波动率[16][17][18] 2. 计算Delta值: $\Delta = \frac{\partial C}{\partial S_t} = N(d_1)$[18] 3. 根据Delta值动态调整标的资产仓位,使组合对标的资产价格敏感性为0,实现“Delta中性”[19] 4. 动态复制通过高频调仓降低风险敞口,静态复制仅在期初调整仓位[20][22] - **模型评价**:动态复制相比静态复制风险敞口更小,复制效果更好,但频繁调仓带来较高交易成本[20][29] 2. 模型名称:DQN模型 - **模型构建思路**:基于深度强化学习,通过神经网络优化Q-Learning算法,动态调整标的资产仓位以实现期权收益的复制[7][40][41] - **模型具体构建过程**: 1. **Q-Learning算法**: - 更新值函数$Q(s,a)$的公式为: $Q(s,a) = Q(s,a) + \alpha \times [R + \gamma \times \max(Q(s',a')) - Q(s,a)]$ 其中,$s$为当前状态,$a$为当前动作,$R$为即时奖励,$\gamma$为折扣因子,$s'$为下一状态[35] 2. **DQN改进**: - 用深度神经网络(DNN)替代Q-Table,估算每个动作的Q值 - 引入经验重放和目标网络,降低数据关联性并提高学习稳定性[40][41] 3. **训练数据生成**: - 使用蒙特卡洛模拟生成沪深300ETF价格和波动率,公式为: $dS_t/S_t = \mu dt + \sigma_t dW_t$ $d\sigma_t^2 = \kappa(\theta - \sigma_t^2)dt + \beta\sigma_t dW_t$ 其中,$S_t$为价格,$\sigma_t$为波动率,$\mu$为期望收益率,$\kappa$为复归速率,$\theta$为长期均值[53][54] - 计算期权价格: $C_t = S_t e^{-\delta T}N(d_1) - K e^{-rT}N(d_2)$[54] 4. **模型优化**: - 奖励函数: $R_{i+1} = V_{i+1} - V_i + H_i(S_{i+1} - S_i) - kS_{i+1}|H_{i+1} - H_i|$ 其中,$V$为总资产,$H$为持仓量,$k$为交易费率[46][47] - 目标函数: $loss = \frac{1}{N}\sum_{i=1}^N(Q - Q_{target})^2$[49] - **模型评价**:DQN模型在捕捉标的资产上涨机会、规避下跌风险方面优于Delta复制,但训练结果存在不确定性[64][71] --- 模型的回测效果 Delta复制模型 - **复制误差均值**:-0.0109%(静态复制),-0.0089%(动态复制) - **复制误差标准差**:1.5554%(静态复制),0.3492%(动态复制)[27] - **正复制误差比例**:4.01%[67] DQN模型 - **复制误差均值**:0.0573%(全样本),1.4423%(涨跌幅在[-5%,5%]内) - **复制误差标准差**:3.3823%(全样本),2.2456%(涨跌幅在[-5%,5%]内) - **正复制误差比例**:54.45%(全样本),72.80%(涨跌幅在[-5%,5%]内)[67][69] - **看涨期权回测结果**: - 年化收益率:1.11%(每月更新),3.60%(每月+涨跌幅超过5%更新) - 最大回撤:-16.25%(每月更新),-13.27%(每月+涨跌幅超过5%更新)[77][80] - **看跌期权回测结果**: - 年化收益率:4.53% - 最大回撤:-8.07%[83][86] --- 量化因子与构建方式 1. 因子名称:Alpha因子 - **因子构建思路**:从业绩超预期、一致预期和资金流向等角度出发,结合降维技术优化选股策略[88][103] - **因子具体构建过程**: 1. 计算初始因子值,如SUE因子、一致预期因子、资金流向因子等[103] 2. 使用T-SNE方法降维,将多维因子合成为一维[88] 3. 对因子进行行业市值中性化、去极值和标准化处理[103] 4. 通过线性约束优化求解,构建指数增强组合[106] --- 因子的回测效果 Alpha因子增强策略 - **年化收益率**:0.95%(结合DQN复制看跌期权对冲),-9.50%(仅多头股票) - **最大回撤**:-4.84%(结合DQN复制看跌期权对冲),-19.28%(仅多头股票)[92]
20231227_海通证券_金融工程专题_余浩淼_选股因子系列研究(九十二)——组合约束对其收益表现的影响分析(1)
海通证券· 2023-12-27 00:00
量化模型与构建方式 1. 模型名称:多因子模型的纯多头组合 - **模型构建思路**:通过选取预期收益最高的N只股票构建等权组合,并尝试通过调整因子收益计算方式(如多头加权法)提升组合表现[9][10] - **模型具体构建过程**: 1. 利用截面回归法计算股票的预期收益: - 先计算过去N期多因子模型中每个因子的回归系数 - 取回归系数的均值作为因子收益 - 将当期每个股票的因子值乘以对应因子收益并求和,得到股票的预期收益[9] 2. 因子值经过标准化和去极值处理,回归得到的因子收益等价于因子IC除以当期所有股票收益率的标准差[9] 3. 针对因子IC的来源问题,提出多头加权法,即在计算因子收益时,给多头股票更高权重,削弱多头端选股效果较差因子的影响[10] - **模型评价**:多头加权法可以在一定程度上提升组合的年化收益和信息比率(IR),但其效果依赖于因子在多头端的选股能力[10] 2. 模型名称:最低权数分组加权法 - **模型构建思路**:通过对股票收益率分组并设定最低权数,限制低收益组与高收益组权重差距,优化组合表现[12][13] - **模型具体构建过程**: 1. 股票收益率分组:使用k-median算法将股票收益率分为N组(N=股票总数/100)[12] 2. 权重计算公式: $$ w_{i}=w_{min}+(g_{i}-g_{0})/(g_{N}-g_{0})*(1-w_{min}) $$ - $w_{i}$:股票i的权重 - $w_{min}$:设定的最小权数(如0.9) - $g_{i}$:股票i所在分组的权数[12] 3. 设定$w_{min}$为0.9,保证低收益组与高收益组权重差距不超过90%[13] - **模型评价**:最低权数分组加权法在纯多头组合中有效提升了年化收益和IR,但在指数增强组合中效果有限[13][29] 3. 模型名称:基于蒙特卡洛模拟的加权法 - **模型构建思路**:通过蒙特卡洛模拟计算股票进入组合的概率,调整权重参考系数以优化组合表现[39][40] - **模型具体构建过程**: 1. 模拟过程: - 以过去一周所有股票收益率为基准,等分为100组,设定每组的收益率区间上下界[41] - 进行M=10000次蒙特卡洛模拟,生成不同的股票预期收益向量,求解满足约束条件的组合权重向量[40][42] 2. 权重参考系数: - 权重参考系数为M次模拟中某股票权重的加和 - 调整权重参考系数极大值和极小值的股票权重,优化组合表现[45] - **模型评价**:该方法在沪深300和中证500增强组合中均提升了年化超额收益和IR,尤其在近两年效果显著[50][56] --- 模型的回测效果 1. 多因子模型的纯多头组合 - 年化超额收益:等权24.5%,最低权数分组加权25.6%[14] - 信息比率(IR):等权2.656,最低权数分组加权2.726[14] 2. 最低权数分组加权法(考虑交易成本) - 年化超额收益:等权13.4%,最低权数分组加权13.7%[22] - 信息比率(IR):等权1.480,最低权数分组加权1.524[22] 3. 基于蒙特卡洛模拟的加权法 - 沪深300增强组合: - 年化超额收益:等权11.9%,蒙特卡洛模拟加权13.5%[50] - 信息比率(IR):等权2.656,蒙特卡洛模拟加权2.733[50] - 中证500增强组合: - 年化超额收益:等权22.9%,蒙特卡洛模拟加权23.4%[50] - 信息比率(IR):等权4.136,蒙特卡洛模拟加权4.241[50] 4. 基于蒙特卡洛模拟的加权法(考虑交易成本) - 沪深300增强组合: - 年化超额收益:等权5.3%,蒙特卡洛模拟加权6.5%[54] - 信息比率(IR):等权1.521,蒙特卡洛模拟加权1.786[54] - 中证500增强组合: - 年化超额收益:等权11.8%,蒙特卡洛模拟加权12.4%[54] - 信息比率(IR):等权2.357,蒙特卡洛模拟加权2.498[54] --- 量化因子与构建方式 1. 因子名称:ROE、SUE、分析师高评分数等12个因子 - **因子构建思路**:通过市值、非线性市值、估值及行业中性化处理,逐次正交化后计算因子收益[11] - **因子具体构建过程**: 1. 对因子值进行标准化和去极值处理[9] 2. 使用加权最小二乘回归法计算因子收益,权重由股票历史收益率分组后确定[11][12] 3. 因子权重公式: $$ weight_{f_{i}}={\sqrt[]{\Sigma_{i=1}^{n}abs(Revenue_{f_{i}})}} $$ - $Revenue_{f_{i}}$:因子i的回归系数(因子收益)的绝对值[15] - **因子评价**:调整因子权重后,多头超额收益占比有所提升,但部分因子权重变化对收益贡献有限[17] --- 因子的回测效果 1. 因子收益加权前后表现 - 多空收益:等权1.77%,最低权数分组加权1.75%[17] - 多头超额收益:等权0.41%,最低权数分组加权0.44%[17] - 多头超额占比:等权23.4%,最低权数分组加权25.0%[17]
20230911_海通证券_金融工程专题_冯佳睿 袁林青_选股因子系列研究(八十八)——多颗粒度特征的深度学习模型:探索和对比(1)
海通证券· 2023-09-11 00:01
量化模型与构建方式 单颗粒度模型 - **模型名称**:单颗粒度模型 - **模型构建思路**:使用单一频率的量价特征(如日度、小时级、30分钟级)作为输入,训练深度学习模型,评估不同频率特征的因子有效性[11][12] - **模型具体构建过程**: 1. 构建不同频率的量价特征(如日度、60分钟、30分钟) 2. 使用相同的网络结构和超参数训练模型 3. 评估因子的Rank IC、ICIR、多头超额收益等指标[11][12] - **模型评价**:日度特征的因子表现整体优于高频特征,但高频特征在部分年份中表现更优,说明高频特征仍有增量信息[13][14] 多颗粒度模型 - **模型名称**:多颗粒度模型 - **模型构建思路**:融合不同频率的特征信息,通过两种方式实现:混合输入和输出集成[15][16] - **模型具体构建过程**: 1. **混合输入**:将不同颗粒度的特征作为输入,通过独立的GRU提取序列信息,合并GRU输出后通过MLP生成最终输出[15] 2. **输出集成**:分别训练每个颗粒度的特征,生成对标签的预测,最终通过简单平均等方式集成不同颗粒度的输出[15] - **模型评价**:多颗粒度模型相比单颗粒度模型在Rank IC和年化多头超额收益上均有显著提升,输出集成方式效果最佳[16][17][18] 双向AGRU多颗粒度模型 - **模型名称**:双向AGRU多颗粒度模型 - **模型构建思路**:在传统GRU基础上引入注意力机制,并改为双向结构,分别按顺序和逆序学习特征序列,缓解信息遗忘问题[22][24] - **模型具体构建过程**: 1. 引入注意力机制,对历史隐含状态进行加权[23] 2. 将GRU从单向改为双向,分别提取顺序和逆序的特征信息[24] 3. 使用双向AGRU训练多颗粒度模型,评估其选股能力[27][30] - **模型评价**:双向AGRU显著提升了Rank IC、ICIR和多头超额收益,表现全面而稳定[27][33][36] 多颗粒度残差学习网络 - **模型名称**:多颗粒度残差学习网络 - **模型构建思路**:通过残差剔除不同颗粒度特征的冗余信息,仅保留特有信息,并集成各颗粒度的预测[46][47] - **模型具体构建过程**: 1. 将多个相同模块叠加,每个模块单独处理一个颗粒度的数据 2. 从第二个模块起,通过残差剔除前一颗粒度已包含的信息 3. 使用线性变换对齐特征维度,计算残差 4. 集成各颗粒度的预测,生成最终输出 5. 损失函数包括MSE、重构损失项和L2正则项,公式如下: $${\mathcal{L}}=\sum_{i=1}^{N}||y^{i}-{\hat{y}}^{i}||^{2}+\lambda_{1}\sum_{i=1}^{N}{\mathcal{L}}_{R e c}+{\frac{\lambda_{\theta}}{2}}||\theta||_{F}^{2}$$[47][50] - **模型评价**:未展现显著优势,整体表现弱于输出集成模型,可能与超参数选择有关[51][53] --- 模型的回测效果 单颗粒度模型 - **指标值**: - Rank IC:日度0.118,60分钟0.116,30分钟0.119(5日标签)[12] - ICIR:日度7.54,60分钟7.35,30分钟7.56(5日标签)[12] - Top10%组合年化超额收益(费前):日度30.3%,60分钟27.1%,30分钟28.7%(5日标签)[12] 多颗粒度模型 - **指标值**: - Rank IC:混合输入0.121,输出集成0.122,输出集成1 0.123(5日标签)[17] - ICIR:混合输入7.83,输出集成7.63,输出集成1 7.71(5日标签)[32] - Top10%组合年化超额收益(费前):混合输入30.8%,输出集成30.6%,输出集成1 31.4%(5日标签)[32] 双向AGRU多颗粒度模型 - **指标值**: - Rank IC:混合输入0.125,输出集成0.126,输出集成1 0.127(5日标签)[32] - ICIR:混合输入8.09,输出集成7.87,输出集成1 7.88(5日标签)[32] - Top10%组合年化超额收益(费前):混合输入34.5%,输出集成33.6%,输出集成1 34.2%(5日标签)[32] 多颗粒度残差学习网络 - **指标值**: - Rank IC:日度0.118,30分钟0.119,输出集成0.123[48] - ICIR:日度7.54,30分钟7.56,输出集成7.71[48] - Top10%组合年化超额收益(费前):日度30.3%,30分钟28.7%,输出集成31.4%[48] --- AI指数增强组合的回测效果 中证500 AI增强组合 - **指标值**: - 年化超额收益(无成分股约束):15%-20%(2017-2023.07)[57] - YTD超额收益(无成分股约束):10%-16%(2023)[57] - 年化超额收益(80%成分股权重约束):10%-15%(2017-2023.07)[61] - YTD超额收益(80%成分股权重约束):7%-12%(2023)[61] 中证1000 AI增强组合 - **指标值**: - 年化超额收益(无成分股约束):25%-30%(2017-2023.07)[65] - YTD超额收益(无成分股约束):15%-18%(2023)[65] - 年化超额收益(80%成分股权重约束):22%-28%(2017-2023.07)[66] - YTD超额收益(80%成分股权重约束):11%-16%(2023)[66]
多因子ALPHA系列报告之(五十一):基于深度学习的高频数据因子挖掘
广发证券· 2023-08-11 00:00
量化模型与构建方式 深度学习因子挖掘模型 - **模型名称**:深层全连接神经网络模型 - **模型构建思路**:通过深度学习模型提取高频数据低频化后的日频因子特征,建立股票价格预测模型[6][29][83] - **模型具体构建过程**: 1. 输入层包含55个高频数据低频化的日频因子,作为模型的输入特征[6][29] 2. 模型采用7层神经网络结构,包括输入层、5个隐含层和输出层[29][31] 3. 输出层包含3个节点,分别表示股票未来走势的三种可能性:上涨、平盘、下跌[32] 4. 隐含层采用线性整流函数(ReLU)作为激活函数,输出层采用softmax激活函数[32] 5. 损失函数为交叉熵损失函数,优化目标为: $$ E(w)=-\sum_{n=1}^{N}\sum_{k=1}^{K}[y_{n k}\log{\hat{y}}_{n k}+(1-y_{n k})\log(1-{\hat{y}}_{n k})] $$ 其中,$y_{nk}$表示第n个样本的第k个输出类别,$\hat{y}_{nk}$表示对该输出的预测值[32][34] 6. 通过误差反向传播优化参数,生成对股票收益率预测能力较强的特征因子[34] - **模型评价**:深度学习模型能够自动提取特征,适合处理高维度、高噪声的高频数据,且生成的特征因子与输入因子具有相对独立性[6][29][83] --- 量化因子与构建方式 高频人工因子 - **因子类别**: 1. **日内价格相关因子**:从日内累积收益率、收益率高阶统计量和价格趋势强度中提取特征,如收益率方差(real_var)、收益率峰度(real_kurtosis)、日内最大回撤率(intraday_maxdrawdown)等[37][39] 2. **成交量相关因子**:基于分钟成交量与价格、收益率的关系构建因子,如Amihud非流动性因子(Amihud_illiq)、分钟成交量与收益率相关性(corr_VR)等[38][40] 3. **盘前价量因子**:利用隔夜收益率和集合竞价信息构建因子,如隔夜收益率(ret_overnight)、集合竞价振幅(diverge_A1)等[41][43] 4. **特定时段采样因子**:针对开盘后半小时和收盘前半小时的价量信息构建因子,如开盘后半小时收益率(ret_H1)、收盘前半小时收益率(ret_H8)等[42][44] 5. **大成交量相关因子**:基于大成交量对应的收益率特征构建因子,如大成交量对应的收益率方差(real_varlarge)、大成交量对应的收益率峰度(real_kurtosislarge)等[45][46] --- 模型的回测效果 深度学习特征因子 - **创业板**: 1. **hf18因子**:多头年化收益率27.25%,超额年化收益率25.50%,信息比率1.04[6][64][68] 2. **hf2因子**:多头年化收益率18.24%,多空年化收益率53.21%,Rank_IC为-8.43%[57][58] 3. **hf13因子**:多头年化收益率15.73%,多空年化收益率14.69%,Rank_IC为7.54%[57][58] - **中证1000**: 1. **hf13因子**:多头年化收益率11.25%,超额年化收益率7.24%,信息比率0.64[6][78][80] 2. **hf17因子**:多头年化收益率7.20%,多空年化收益率4.68%,Rank_IC为-1.83%[71][72] 3. **hf18因子**:多头年化收益率5.35%,多空年化收益率10.49%,Rank_IC为-4.90%[71][72] 高频人工因子 - **创业板**: 1. **Amihud_illiq因子**:多头年化收益率27.91%,多空年化收益率39.72%,Rank_IC为8.92%[47][48] 2. **real_kurtosis因子**:多头年化收益率15.12%,多空年化收益率5.85%,Rank_IC为-3.74%[47][48] 3. **ratio_realvarlarge因子**:多头年化收益率14.71%,多空年化收益率16.94%,Rank_IC为-5.98%[47][48] - **中证1000**: 1. **real_kurtosis因子**:多头年化收益率10.76%,多空年化收益率15.15%,Rank_IC为-5.06%[51][52] 2. **Amihud_illiq因子**:多头年化收益率10.07%,多空年化收益率22.11%,Rank_IC为6.57%[51][52] 3. **ratio_realvarlarge因子**:多头年化收益率8.74%,多空年化收益率17.90%,Rank_IC为-5.95%[51][52] --- 因子的回测效果 创业板 - **hf18因子**:年化收益率27.25%,最大回撤率31.00%,年化波动率26.67%,信息比率1.02[64][68][70] - **hf2因子**:年化收益率18.24%,最大回撤率39.44%,信息比率1.03[57][58] 中证1000 - **hf13因子**:年化收益率11.25%,最大回撤率22.10%,年化波动率20.14%,信息比率0.56[78][80][82] - **hf17因子**:年化收益率7.20%,最大回撤率13.30%,信息比率0.78[71][72]
多因子ALPHA系列报告之(五十):弹性因子研究:从高频数据说起
广发证券· 2023-06-12 00:00
量化因子与构建方式 1. 因子名称:弹性因子 - **因子的构建思路** 弹性因子用于衡量股票价格从短暂价格影响中恢复到其基本价格的速度,反映了股票的流动性特征[5][17][19] - **因子具体构建过程** 1. **股票价格分解** 将股票价格分解为基本价格和暂时价格,基本价格代表长期趋势,暂时价格代表围绕基本价格的短期波动 使用Hodrick-Prescott(HP)算法对取自然对数后的股票价格进行分解,HP算法能够平滑基本价格并突出暂时价格的波动[20][22][23] 公式: $ p_{t}=q_{t}+z_{t} $ 其中,$ p_{t} $为股票价格的自然对数,$ q_{t} $为基本价格,$ z_{t} $为暂时价格[22] 2. **频域分析与弹性测量** 使用傅立叶变换将分解后的暂时价格序列转换为频域中的频谱函数形式,计算暂时价格恢复速度 离散傅立叶变换公式: $ Z_{k}=\sum_{t=1}^{D}z_{t}\,e^{-{\frac{i2\pi k t}{D}}},\qquad({\bf k}=1,2,\cdots,{\bf D}) $ 其中,$ z_{t} $为暂时价格序列,$ Z_{k} $为频谱函数,$ D $为交易日总天数,$ i $为虚数单位[26] 归一化频谱函数: $ \overline{{{Z_{k}}}}=\frac{1}{D}Z_{k} $ 弹性因子计算公式: $ Resiliency_{i,t}={\frac{1}{\left[{\frac{D_{i,t}}{2}}\right]}}\sum_{k=1}^{\left[D_{i,t}\right]}2{\big|}Z_{k,i,t}{\big|}\cdot f_{\mathrm{k,i,t}} $ 其中,$ f_{\mathrm{k,i,t}} $为频率,$ D_{i,t} $为滚动窗口内的样本天数[27] 3. **滚动窗口计算** 针对每只股票,使用自2005年1月起至调仓日的历史数据进行HP分解,并以36个月的滚动窗口逐月计算弹性水平[27] - **因子评价** 弹性因子能够有效捕捉股票的流动性特征,具有较强的选股能力,尤其在高频数据维度下表现显著[5][19][28] --- 因子的回测效果 全市场 - **多空年化收益率**:24.62%[30][89] - **多头年化收益率**:12.88%[30][89] - **超额年化收益率(相对沪深300)**:11.81%[30] - **Rank_IC均值**:-6.24%[30][36] - **Rank_IC胜率**:79.27%[30] 创业板 - **多空年化收益率**:28.27%[39][89] - **多头年化收益率**:16.97%[39][89] - **超额年化收益率(相对创业板指数)**:11.53%[39] - **Rank_IC均值**:-6.35%[39][46] - **Rank_IC胜率**:76.09%[39] 沪深300 - **多空年化收益率**:3.13%[49][89] - **多头年化收益率**:2.16%[49][89] - **超额年化收益率(相对沪深300)**:1.25%[49] - **Rank_IC均值**:-2.44%[49][56] - **Rank_IC胜率**:63.21%[49] 中证500 - **多空年化收益率**:14.74%[59][89] - **多头年化收益率**:7.57%[59][89] - **超额年化收益率(相对中证500)**:6.15%[59] - **Rank_IC均值**:-4.83%[59][66] - **Rank_IC胜率**:71.35%[59] 中证800 - **多空年化收益率**:10.33%[69][89] - **多头年化收益率**:5.62%[69][89] - **超额年化收益率(相对中证800)**:4.59%[69] - **Rank_IC均值**:-4.01%[69][76] - **Rank_IC胜率**:69.64%[69] 中证1000 - **多空年化收益率**:20.65%[79][89] - **多头年化收益率**:7.60%[79][89] - **超额年化收益率(相对中证1000)**:8.03%[79] - **Rank_IC均值**:-5.89%[79][86] - **Rank_IC胜率**:78.41%[79]
20230513_海通证券_金融工程专题_冯佳睿袁林青_选股因子系列研究(八十七)——高频与日度量价数据混合的深度学习因子
海通证券· 2023-05-13 00:01
量化模型与构建方式 1. 模型名称:混频深度学习模型 - **模型构建思路**:将日频和高频量价特征共同输入深度学习模型,通过延长训练和迭代周期,挖掘更多的增量信息[10][11][12] - **模型具体构建过程**: 1. 输入特征:26个日频特征和64个60分钟频特征,分别提取股票的日度收益、价格形态、交易活跃度、流动性及日内微观结构[11][12] 2. 数据预处理:2013年5月之前的高频量价特征因数据完整性问题被填充为0[12] 3. 模型架构:采用两个独立的GRU模块分别提取日频和高频特征信息,随后通过MLP整合GRU输出并生成最终预测[12][13] 4. 训练设置: - 验证早停集:最近120个交易日的数据 - 训练集:1200个交易日的数据 - 模型迭代:每隔120个交易日迭代一次 - 损失函数:MSE[16][17][22] 5. 预测标签:未来5日收益率和未来10日收益率[17] 6. 重复训练:同一组超参的模型重复训练5次,推理时取均值作为输出[22] - **模型评价**:通过将低频和高频特征一同输入深度学习模型,显著提升了IC、RankIC等指标,同时保持较高的ICIR和胜率[72] 2. 模型名称:正交深度学习模型 - **模型构建思路**:在深度学习模型的MLP与输出层之间加入正交层,生成多个两两正交的因子集合[62][63] - **模型具体构建过程**: 1. 添加正交层:在不改变模型整体架构及损失函数的前提下,通过线性变换实现因子正交[62] 2. 输出结果:生成32个因子,因子间的相关性绝大多数小于0.15,基本实现正交效果[63][64] 3. 扩展目标:可进一步生成与指定因子集合(如行业、市值、BP)正交且内部相互正交的因子集合[67] - **模型评价**:正交约束后,因子集合的选股能力有所削弱,但实现了因子间的低相关性,适合挖掘增量因子[67][70] --- 模型的回测效果 1. 混频深度学习模型 - **IC均值**:周频因子IC均值为0.10,双周频和月频因子IC均值分别为0.11和0.12[19][39] - **年化ICIR**:周频因子年化ICIR为7.853(未来10日因子)[19] - **胜率**:周频因子胜率为87%-91%[19] - **多头组合年化超额收益**: - TOP 10%组合:周频因子为29.4%-30.8%,双周频因子为20.9%-22.2%,月频因子为13.7%-15.5%[26][39] - TOP 100组合:周频因子为34.4%,双周频因子为22.7%-23.6%,月频因子为14.5%-16.1%[26][39] 2. 正交深度学习模型 - **IC均值**:相互正交因子IC均值为0.03-0.04,与行业、市值和BP正交的因子IC均值为0.015-0.025[66][70] - **胜率**:相互正交因子胜率为71%-81%,与行业、市值和BP正交的因子胜率为59%-71%[66][70] - **多头组合年化超额收益**: - 相互正交因子:TOP 10%组合为5%-12%[66] - 与行业、市值和BP正交的因子:TOP 10%组合为-0.6%-5.6%[70] --- 量化因子与构建方式 1. 因子名称:未来5日因子 - **因子构建思路**:基于深度学习模型预测股票未来5日收益率[17] - **因子具体构建过程**:以股票过去60个交易日的日频和高频量价特征序列为输入,训练深度学习模型,输出未来5日收益率预测[16][17] - **因子评价**:表现优于未来10日因子,IC和胜率更高,但因子自相关性较低,换手率较高[19] 2. 因子名称:未来10日因子 - **因子构建思路**:基于深度学习模型预测股票未来10日收益率[17] - **因子具体构建过程**:与未来5日因子类似,但预测标签为未来10日收益率[17] - **因子评价**:相比未来5日因子,换手率较低,但IC和胜率略逊一筹[19] --- 因子的回测效果 1. 未来5日因子 - **IC均值**:周频为0.104,双周频为0.111,月频为0.112[19][39] - **年化ICIR**:周频为8.418[19] - **胜率**:周频为91%[19] - **多头组合年化超额收益**: - TOP 10%组合:周频为29.4%,双周频为20.9%,月频为13.7%[26][39] - TOP 100组合:周频为34.4%,双周频为22.7%,月频为14.5%[26][39] 2. 未来10日因子 - **IC均值**:周频为0.102,双周频为0.113,月频为0.116[19][39] - **年化ICIR**:周频为7.853[19] - **胜率**:周频为87%[19] - **多头组合年化超额收益**: - TOP 10%组合:周频为30.8%,双周频为22.2%,月频为15.4%[26][39] - TOP 100组合:周频为34.4%,双周频为23.6%,月频为15.9%[26][39]
多因子ALPHA系列报告之(四十九):基于基金属性的因子选股策略研究
广发证券· 2023-04-02 00:00
量化因子与构建方式 1. 因子名称:基金属性因子 - **因子的构建思路**:通过基金经理的选股和择时能力差异,赋予“优秀”基金持仓股票更高权重,“普通”基金持仓股票更低权重,从而构建选股因子[6][24][26] - **因子具体构建过程**: 1. 定义“优秀”基金:基于广发金工的选基因子库,利用月频维度的选基因子评价基金表现[24][26] 2. 计算单个基金属性因子:在时间截面t内,将选基因子值标准化后,结合基金持仓比例计算基金属性因子,公式如下: $$ fundattr\_factor_{i,k,t} = \frac{\sum_{j}(Hold\_Ratio_{i,j,t} \cdot fund\_attribute\_standard_{j,k,t})}{\sum_{j}Hold\_Ratio_{i,j,t}} $$ 其中,$Hold\_Ratio_{i,j,t}$为基金j在时间t持有股票i的持仓比例,$fund\_attribute\_standard_{j,k,t}$为标准化后的第k个选基因子值[27] 3. 综合因子构建:将多个基金属性因子标准化后等权合并,形成综合基金属性因子[27] - **因子评价**:综合基金属性因子能够挖掘传统因子之外的增量信息,且在剥离三个月股价动量因子后依然表现显著[6][124][109] --- 因子的回测效果 1. **基金重仓股股票池** - **RANK_IC均值**:0.025[6][124] - **RANK_IC胜率**:65.91%[6][124] - **信息比率(IR)**:0.80[6][124] - **换手率**:30%左右[6][124] 2. **沪深300股票池** - **RANK_IC均值**:0.035[6][124] - **RANK_IC胜率**:65.91%[6][124] - **信息比率(IR)**:1.05[6][124] - **多头相对基准年化超额收益率**:7.97%[69][77] 3. **中证500股票池** - **RANK_IC均值**:0.015[83][86] - **RANK_IC胜率**:59.85%[83][86] - **多头相对基准年化超额收益率**:7.12%[83][89] 4. **中证800股票池** - **RANK_IC均值**:0.025[95][98] - **RANK_IC胜率**:61.36%[95][98] - **多头相对基准年化超额收益率**:8.34%[95][103] 5. **剥离三个月股价动量因子后** - **RANK_IC均值**:0.029[111][112] - **RANK_IC胜率**:68.94%[111][112]
多因子ALPHA系列报告之(四十八):高频数据的因子化研究
广发证券· 2023-03-10 00:00
量化因子与构建方式 日内价格相关因子 - **因子名称**:real_var、real_skew、real_kurtosis、real_upvar、real_downvar、ratio_realupvar、ratio_realdownvar、trendratio、ret_intraday、intraday_maxdrawdown - **因子的构建思路**:基于日内收益率的高阶统计量和价格形态特征,提取反映股票价格波动、分布特性及趋势的信息[18][22][23] - **因子具体构建过程**: 1. **已实现收益率方差**: $$ r e a l\_v a r_{D,i}=\frac{1}{T-2}{\sum}_{t=2}^{T}\left(r_{t,D,i}-{\bar{r}}_{D,i}\right)^{2} $$ 其中,$r_{t,D,i}$为分钟收益率,$\bar{r}_{D,i}$为日内收益率均值[22] 2. **已实现收益率偏度**: $$ r e a l\_s k e w_{D,i}=\frac{1}{T-1}\sum_{t=2}^{T}\frac{\left(r_{t,D,i}-\bar{r}_{D,i}\right)^3}{(r e a l\_v a r_{D,i})^{3/2}} $$ 偏度反映收益率分布的不对称性[22] 3. **已实现收益率峰度**: $$ r e a l\_k u r t o s i s_{D,i}=\frac{1}{T-1}\sum_{t=2}^{T}\frac{\left(r_{t,D,i}-\bar{r}_{D,i}\right)^4}{r e a l\_v a r_{D,i}} $$ 峰度反映分布的陡峭程度[23] 4. **上行/下行收益率方差比值**: $$ r a t i o_{\_}r e a l u p v a r_{D,i}=\frac{r e a l_{\_}u p v a r_{D,i}}{r e a l_{\_}v a r_{D,i}} $$ $$ r a t i o_{\_}r e a l d o w n v a r_{D,i}=\frac{r e a l_{\_}d o w n v a r_{D,i}}{r e a l_{\_}v a r_{D,i}} $$ 分别计算收益率大于0和小于0时的方差占比[24] 5. **趋势占比**: $$ t r e n d r a t i o_{D,i}=\frac{p_{T,D,i}-p_{1,D,i}}{\sum_{t=2}^{T}\left|p_{t,D,i}-p_{t-1,D,i}\right|} $$ 衡量日内股价的趋势强度[25] 6. **日内收益率**: $$ r e t_{-}i n t r a d a y_{D,i}=\frac{p_{T,D,i}}{o p e n_{D,i}}-1 $$ 反映开盘到收盘的收益率[25] 7. **日内最大回撤**: $$ i n t r a d a y_{-}m a x d r a w d o m_{D,i}=\operatorname*{min}_{0<t<T}\operatorname*{min}_{0<\tau\leq T-t}{\frac{p_{t+\tau,D,i}}{p_{t,D,i}}}-1 $$ 衡量日内价格的最大回撤幅度[26] 日内价量相关因子 - **因子名称**:ratio_volumeH1、ratio_volumeH2、...、ratio_volumeH8、corr_VP、corr_VR、corr_VRlag、corr_VRlead、Amihud_illiq - **因子的构建思路**:基于成交量分布及价量关系,提取反映投资者行为特征和流动性的信息[18][47] - **因子具体构建过程**: 1. **成交量分布因子**: $$ r a t i o_{\_}v o l u m e H n = \frac{\text{第n段时间成交量}}{\text{全天成交量}} $$ 将交易时间分为8段,计算每段成交量占比[47] 2. **价量相关性**: $$ c o r r_{-}V P_{D,i}=c o r r(v_{t,D,i},p_{t,D,i}) $$ 计算价格与成交量的相关性[47] 3. **收益率与量相关性**: $$ c o r r_{-}V R_{D,i}=c o r r(v_{t,D,i},r_{t,D,i}) $$ $$ c o r r_{-}V R l a g_{D,i}=c o r r(v_{t,D,i},r_{t-1,D,i}) $$ $$ c o r r_{-}V R l e a d_{D,i}=c o r r(v_{t,D,i},r_{t+1,D,i}) $$ 分别计算成交量与当前、滞后、超前收益率的相关性[47][48] 4. **Amihud非流动性因子**: $$ A m i h u d\_i l l i q_{D,i}=\frac{1}{T-1}\sum_{t=2}^{T}\frac{\left|r_{t,D,i}\right|}{p_{t,D,i}v_{t,D,i}} $$ 衡量单位成交额驱动下的价格变化幅度[49][50] 盘前信息因子 - **因子名称**:ret_overnight、ret_open2AH1、ret_open2AL1、ret_open2AH2、ret_open2AL2、diverge_A1、diverge_A2 - **因子的构建思路**:基于隔夜收益率和开盘集合竞价信息,提取反映资金试盘行为和多空博弈的信息[18][75] - **因子具体构建过程**: 1. **隔夜收益率**: $$ r e t_{\_}o v e r n i g h t = \frac{\text{开盘价}}{\text{前收盘价}}-1 $$ 反映隔夜市场的价格变化[75] 2. **集合竞价收益率**: $$ r e t_{\_}o p e n 2 A H 1 = \frac{\text{开盘价}}{\text{第一阶段最高价}}-1 $$ $$ r e t_{\_}o p e n 2 A L 1 = \frac{\text{开盘价}}{\text{第一阶段最低价}}-1 $$ 分别计算开盘价相对集合竞价最高价和最低价的收益率[75] 3. **集合竞价振幅**: $$ d i v e r g e_{\_}A 1 = \frac{\text{第一阶段最高价}-\text{第一阶段最低价}}{\text{第一阶段最低价}} $$ 衡量集合竞价的价格波动幅度[75] 特定时段采样因子 - **因子名称**:ret_H1、ret_close2H1、ret_H8、real_varH1、real_varH8、real_skewH1、real_skewH8、real_kurtosisH1、real_kurtosisH8、corr_VPH1、corr_VPH8、corr_VRleadH1、corr_VRleadH8、corr_VRlagH1、corr_VRlagH8 - **因子的构建思路**:基于开盘后和收盘前半小时的价量信息,提取反映多空博弈和主力资金行为的信息[18][97] - **因子具体构建过程**: 1. **收益率因子**: $$ r e t_{\_}H 1 = \frac{\text{10点价}}{\text{开盘价}}-1 $$ $$ r e t_{\_}H 8 = \frac{\text{收盘价}}{\text{14:30价}}-1 $$ 分别计算开盘后和收盘前半小时的收益率[97][99] 2. **价量相关性因子**: $$ c o r r_{\_}V P H 1 = c o r r(v_{t,D,i},p_{t,D,i}) $$ $$ c o r r