GRU模型

搜索文档
AI+HI系列:DecompGRNv1:基于线性RNN的端到端模型初探
华创证券· 2025-09-05 16:12
量化模型与构建方式 1. 模型名称:RNN-LIN - 模型构建思路:基于线性RNN构建的简化时序模型,移除非线性激活函数以提升训练效率并减少参数量[11][12] - 模型具体构建过程: 输入序列为股票日频特征(高、开、低、收、均价、成交量)的150日时序数据[23] 模型结构包含遗忘门和输出门,使用sigmoid激活函数控制门控值在(0,1)范围内,隐状态迭代时不使用非线性激活函数[20] 具体计算公式如下: $$h_{t}=f_{t}\otimes h_{t-1}+(1-f_{t})\otimes c_{t}$$ $$y_{t}=o_{t}\otimes h_{t}$$ $$f_{t}=Sigmoid(x_{t}W_{f})$$ $$o_{t}=Sigmoid(x_{t}W_{o})$$ $$c_{t}=SiLU(x_{t}W_{c})$$ 其中$h_t$表示隐状态,$y_t$表示输出,$f_t$为遗忘门,$o_t$为输出门,$c_t$为候选状态,$W_f$、$W_o$、$W_c$为可学习参数矩阵[20] 参数量相比GRU模型减少约50%[20] - 模型评价:训练效率优于GRU,但性能略逊于GRU基线模型[22][47] 2. 模型名称:RNN-LIN-GLU - 模型构建思路:在线性RNN基础上耦合门控线性单元(GLU)以提升模型表达能力[21][22] - 模型具体构建过程: 在RNN-LIN层后叠加GLU FFN模块组成block[21] GLU FFN的计算公式为: $$FFNSwiGLU(x,W,V,W_{2})=(Swish(xW)\otimes xV)W_{2}$$ 其中$W$、$V$、$W_2$为可学习参数矩阵[21] 其他构建过程与RNN-LIN相同[21] - 模型评价:GLU模块对RNN-LIN的性能提升效果优于对GRU的提升[45] 3. 模型名称:DecompGRN - 模型构建思路:基于线性RNN改进的时序-截面端到端模型,将截面信息直接整合进RNN门控单元[2][49] - 模型具体构建过程: 采用两层RNN结构[50] 第一层线性RNN输出每个时间步的个股表征,使用市值作为分组特征进行20分组,计算股票分组去均值结果,得到包含截面信息的个股表征[50] 第二层构建线性RNN变体,将截面信息和时序融合共同输入遗忘门和输出门[50] 使用时序趋势分解模块将初始输入拆分为趋势与残差分量[89] 趋势分量输入1D卷积+RNN实现时序编码,残差分支使用深度可分离卷积[94][95] 最终将趋势和残差分支结果相加合并,输入第二个时序RNN编码器,取最后一个时间步输出通过线性预测头得到股票得分[96] 参数量仅为GRU基线模型的43%[74] - 模型评价:性能超越基线GRU模型,模型逻辑与参数量实现双重简化[2][74] 模型的回测效果 1. RNN-LIN模型 - 中证全指:RankIC 0.13,RankICIR 1.08,IC胜率 0.88[37] - 沪深300:RankIC 0.10,RankICIR 0.62,IC胜率 0.74[37] - 中证500:RankIC 0.09,RankICIR 0.71,IC胜率 0.78[37] - 中证1000:RankIC 0.12,RankICIR 0.96,IC胜率 0.86[37] 2. RNN-LIN-GLU模型 - 中证全指:RankIC 0.13,RankICIR 1.14,IC胜率 0.89[37] - 沪深300:RankIC 0.10,RankICIR 0.63,IC胜率 0.73[37] - 中证500:RankIC 0.10,RankICIR 0.74,IC胜率 0.79[37] - 中证1000:RankIC 0.12,RankICIR 1.01,IC胜率 0.87[37] 3. DecompGRN模型 - 中证全指:RankIC 0.141,RankICIR 1.26,IC胜率 0.89[55][89] - 沪深300:RankIC 0.099,RankICIR 0.65,IC胜率 0.74[55][89] - 中证500:RankIC 0.098,RankICIR 0.77,IC胜率 0.78[55][89] - 中证1000:RankIC 0.127,RankICIR 1.08,IC胜率 0.88[55][89] 量化因子与构建方式 (报告中未明确提及独立的量化因子构建,主要关注端到端模型) 因子的回测效果 (报告中未提供独立因子的测试结果) 分组测试绩效统计 1. RNN-LIN模型(层数1) - 中证全指:年化收益率42.59%,夏普比率1.46,最大回撤-36.71%,超额年化42.05%,平均单边换手0.81[42] - 沪深300:年化收益率28.59%,夏普比率1.38,最大回撤-22.09%,超额年化28.67%,平均单边换手0.66[42] - 中证500:年化收益率23.68%,夏普比率1.02,最大回撤-34.63%,超额年化23.95%,平均单边换手0.76[42] - 中证1000:年化收益率32.81%,夏普比率1.20,最大回撤-35.43%,超额年化33.72%,平均单边换手0.77[42] 2. RNN-LIN-GLU模型(层数1) - 中证全指:年化收益率48.73%,夏普比率1.60,最大回撤-35.33%,超额年化48.19%,平均单边换手0.81[42] - 沪深300:年化收益率29.92%,夏普比率1.38,最大回撤-23.62%,超额年化30.00%,平均单边换手0.65[42] - 中证500:年化收益率24.45%,夏普比率1.03,最大回撤-39.60%,超额年化24.72%,平均单边换手0.75[42] - 中证1000:年化收益率34.47%,夏普比率1.24,最大回撤-34.51%,超额年化35.38%,平均单边换手0.76[42] 3. DecompGRN模型 - 中证全指:年化收益率57.68%,夏普比率1.71,最大回撤-34.69%,超额年化56.18%,平均单边换手0.79[57][89] - 沪深300:年化收益率31.69%,夏普比率1.42,最大回撤-26.88%,超额年化31.00%,平均单边换手0.65[57][89] - 中证500:年化收益率26.90%,夏普比率1.10,最大回撤-37.82%,超额年化26.13%,平均单边换手0.74[57][89] - 中证1000:年化收益率40.35%,夏普比率1.37,最大回撤-35.51%,超额年化40.03%,平均单边换手0.74[57][89] 指增组合测试结果 DecompGRN模型指增表现 - 沪深300指增:年化超额收益10.24%,跟踪误差5.07,超额夏普1.95,超额最大回撤-8.12%,2025年累计超额3.93%[75][85][89] - 中证500指增:年化超额收益10.05%,跟踪误差6.10,超额夏普1.60,超额最大回撤-7.15%,2025年累计超额6.72%[75][85][89] - 中证1000指增:年化超额收益19.58%,跟踪误差6.75,超额夏普2.68,超额最大回撤-9.11%,2025年累计超额18.26%[75][85][89]
【广发金工】面向通用模型的时序数据增强方法
广发金融工程研究· 2025-07-31 11:11
时序数据增强技术概述 - 时序数据增强通过平移、缩放、扰动、裁剪、合成等策略提升模型泛化能力,适用于金融场景中低信噪比数据的信号提取[1][4] - 技术可无缝嵌入传统机器学习、深度学习及强化学习系统,拓展量化策略表达能力[1][4] - 方法分类包括随机变换、特征混合和生成模型三大类,其中随机变换涵盖幅值域、时域和频域三个维度的操作[9][39][47] 随机变换增强方法 幅值域变换 - **抖动(Jittering)**:添加高斯噪声(σ=0.03)提升模型抗扰动能力,缓解数据漂移问题[11][13][14] - **旋转(Rotation)**:多变量序列中应用随机旋转矩阵,但可能破坏经济含义的结构关系[15][17] - **缩放(Scaling)**:采用α∈[0.8,1.2]的随机系数统一调整幅度,模拟不同波动强度[19] - **幅度扭曲(Magnitude Warping)**:通过控制节点(μ=1,σ=0.2)生成平滑调节曲线实现局部调制[20][24] 时域变换 - **切片(Slicing)**:截取长度W的子序列(W=20)保留局部时间结构[25][27] - **片段重排(Permutation)**:将序列切分为N段(N=3)后随机打乱顺序,仅适用于时序不敏感任务[28][30] - **时间扭曲(Time Warping)**:采用三次样条插值构建非线性映射曲线,模拟市场异常波动[31][35] 频域变换 - **频率扭曲(Frequency Warping)**:通过VTLP方法重构梅尔滤波器组频率分布[36] - **傅里叶变换方法**:在幅度谱和相位谱中注入噪声拓展频谱形态[37] - **频谱增强(Spectrogram Augmentation)**:直接对频谱图实施时间/频率掩蔽操作[38] 特征混合增强方法 - **幅值域混合**:采用SMOTE算法在同类序列间线性插值(β=0.5)生成新样本[40][41] - **时域混合**:基于DTW对齐"教师-学生"序列时间结构,保留原始能量分布[43][44] - **频域混合**:EMDA方法选择性增强特定频带(如5-10Hz),创造新听觉特征[45] - **多域混合**:SPAWNER方法引入随机路径约束,构建多样化时间变形路径[46] 生成模型增强方法 - **统计生成模型**:LGT模型结合全局趋势与局部波动,提升LSTM预测性能[48][49] - **神经网络生成模型**:LSTM-GAN在ECG数据增强中效果优于传统方法,F1-score提升12%[56][57] GRU模型实证结果 训练策略对比 - **固定概率(p=0.5)**:jittering因子RankIC胜率提升1.2%,scaling因子多头年化收益达18.05%[64][68] - **线性衰减概率(p:1→0)**:等权合成因子RankIC均值提升1.2%,多空年化收益达56.38%[71][75] 因子表现 - **最佳增强方式**:jittering在线性衰减模式下RankIC达13.3%,多空收益55.35%[75] - **最差增强方式**:rotation在固定模式下RankICIR降至0.88,多空收益仅30.44%[68] - **相关性分析**:jittering/scaling与原始数据相关系数1.0,rotation仅0.02[61] 应用前景 - 技术可适配不同数据类型(量价/基本面)、频率(日频/分钟频)及模型架构(Transformer/TCN)[112] - 在生物信号处理、语音识别等领域已验证有效性,金融时序增强尚处探索阶段[24][38]
结合基本面和量价特征的GRU模型
中邮证券· 2025-06-05 15:20
根据研报内容,以下是量化模型与因子的详细总结: 量化模型与构建方式 1. **模型名称:日行情GRU模型** - 构建思路:基于股票过去240个交易日的量价信息预测次月收益率[15] - 具体构建过程: - 输入数据:开盘价、最高价、最低价、收盘价、成交量、成交额、换手率(7个字段) - 数据标准化:对每个字段的240个值进行z-score标准化[16] - 预测目标:截面标准化的次月收益率(月初开盘价至月末收盘价) - 训练方式:滚动6年样本,按4:1划分训练集/验证集,连续10轮早停训练[16] - 模型评价:超额收益稳定,但2024年后表现有所减弱[19] 2. **模型名称:日行情+基本面GRU模型** - 构建思路:在日行情模型基础上拼接20个财务指标TTM值[25] - 具体构建过程: - 财务数据处理:直接使用最新季报TTM值拼接至量价矩阵[26] - 输入矩阵标准化后输入GRU网络[26] - 模型评价:2022年前表现与基准相近,2023年后显著弱于纯量价模型[34] 3. **模型名称:日行情+调整基本面GRU模型** - 构建思路:对财务指标进行日频化处理以解决数据频率不匹配问题[35] - 具体构建过程: - 调整公式: $$\mathrm{DFTTM}_{\mathrm{q1}}={\frac{\mathrm{FactorTTM}_{\mathrm{q1}}-\mathrm{FactorTTM}_{\mathrm{q0}}}{a b s\big(\mathrm{FactorTTM}_{\mathrm{q0}}\big)}}$$ $$Factort = FactorTTMq + abs(FactorTTMq ) ( 90 1)$$[36] - 按财报期增速每日调整TTM值[36] - 模型评价:2022年前表现显著增强,2023年后仍弱于基准[42] 4. **模型名称:barra5d+日行情+精简基本面GRU模型** - 构建思路:混频模型结合长期预测(日行情)与短期预测(分钟数据)能力[65] - 具体构建过程: - 分钟数据模型输入:日内240分钟数据预测未来5日收益率[56] - 精简基本面:仅保留净利润TTM和市值因子[45] - 模型叠加:相关性较低的两类GRU模型输出加权组合[65] - 模型评价:解决单一模型周期性问题,年度超额分布更均匀[80] 模型的回测效果 1. **日行情GRU模型** - 年化超额收益:8.75% - 信息比率(IR):2.25 - 最大回撤:4.71%[23] 2. **日行情+基本面GRU模型** - 年化超额收益:6.86% - 信息比率(IR):1.46 - 最大回撤:6.14%[33] 3. **日行情+调整基本面GRU模型** - 年化超额收益:7.76% - 信息比率(IR):1.65 - 最大回撤:5.40%[44] 4. **barra5d+日行情+精简基本面GRU模型** - 中证1000增强组合: - 年化超额收益:11.82% - 信息比率(IR):2.39 - 最大回撤:5.70%[78] - 其他指数增强表现: - 沪深300年化超额:5.70%[82] - 中证500年化超额:6.46%[86] - 科创综指年化超额:6.28%[88] 关键创新点 - 财务数据日频化处理通过增速平滑实现[36] - 混频模型有效结合不同时间尺度预测能力(分钟级+日级)[65] - 精简基本面因子可提升模型稳定性(净利润TTM+市值)[45]
金工专题报告:结合基本面和量价特征的GRU模型
中邮证券· 2025-06-05 14:23
量化模型与构建方式 1. GRU基准模型 - **模型名称**:日行情GRU因子[3] - **构建思路**:基于股票过去240个交易日的量价信息(开盘价、最高价、最低价、收盘价、成交量、成交额、换手率)预测次月收益率[15][16] - **具体构建过程**: 1. 输入数据标准化:对每个字段的240个历史值进行z-score标准化[16] 2. 预测目标:截面标准化的次月收益率(月初开盘价至月末收盘价)[16] 3. 训练方式:滚动6年样本,按4:1划分训练集/验证集,早停机制(连续10轮损失未下降)[16] 4. 组合构建参数:中证1000成分股80%、个股权重偏离1%、行业偏离1%、月频调仓[18] - **模型评价**:量价信息挖掘能力稳定,但财务信息融合需优化[14] 2. 财务信息增强模型 - **模型名称**:日行情+基本面GRU因子[26] - **构建思路**:在基准模型基础上拼接20个财务指标TTM值(如净利润、营业收入等)[24][25] - **具体构建过程**: 1. 财务数据日频化调整公式: $$\mathrm{DFTTM}_{\mathrm{q1}}={\frac{\mathrm{FactorTTM}_{\mathrm{q1}}-\mathrm{FactorTTM}_{\mathrm{q0}}}{a b s\big(\mathrm{FactorTTM}_{\mathrm{q0}}\big)}}$$ $$\mathrm{Factort} = \mathrm{FactorTTMq} + \mathrm{abs}(\mathrm{FactorTTMq}) \times \left(\frac{\mathrm{DFTTM}_{\mathrm{q1}}}{90}\right)$$[36] 2. 精简后保留核心指标:净利润TTM+市值因子[45] - **模型评价**:2022年前财务信息提升显著,2023年后量价因子主导[44][45] 3. 混频融合模型 - **模型名称**:barra5d+日行情+精简基本面GRU[55][73] - **构建思路**:结合分钟级barra5d模型(预测未来5日收益)与日行情GRU模型[56][65] - **具体构建过程**: 1. barra5d模型:基于240分钟数据预测风格中性化后的5日收益率[56] 2. 混频叠加:通过低相关性组合提升稳定性(日行情GRU与barra5d相关性0.23)[55][65] - **模型评价**:解决单一频率模型周期局限性,2024年后表现显著改善[73][79] --- 模型回测效果 1. 日行情GRU因子 - 年化超额收益:8.75% - 信息比率(IR):2.25 - 最大回撤:4.71% - 分年度超额收益:2020年7.88%、2021年7.54%、2022年12.35%[20][23] 2. 日行情+调整基本面GRU因子 - 年化超额收益:7.76% - 信息比率(IR):1.65 - 最大回撤:5.40% - 分年度超额收益:2020年14.69%、2021年7.59%[42][44] 3. barra5d+日行情+精简基本面GRU - 年化超额收益:11.82%(中证1000) - 信息比率(IR):2.39 - 最大回撤:5.70% - 其他指数增强表现: - 沪深300增强年化超额5.70%[82] - 中证500增强年化超额6.46%[86] - 科创综指增强年化超额6.28%[88]