量化择时系列研究之一:基于稀疏自编码器的指数择时模型
华源证券·2026-02-02 17:17

量化模型与构建方式 1. 模型名称:稀疏自编码择时模型 (Sparse Auto Encoder, SAE)[7] * 模型构建思路:针对指数择时数据量少、噪声高、特征有效性波动大的问题,对标准自编码器进行改进,通过引入稀疏化惩罚和自回归损失,使模型能够自动进行特征筛选和信息提纯,提高鲁棒性和抗过拟合能力,以学习指数涨跌规律[2][7][11]。 * 模型具体构建过程: 1. 模型结构:模型分为稀疏自编码器和预测器两部分[8]。 2. 编码与解码:输入特征 xix_i 通过编码器(Encoder)压缩为低维编码 codeicode_i,再通过解码器(Decoder)重构为 x^i\hat{x}_i[8]。 3. 预测:将编码器输出的隐藏层特征 resires_i 通过预测器(Predictor)得到未来收益率的预测值 y^i\hat{y}_i[8]。 4. 损失函数:总损失函数由预测损失、自回归损失和稀疏化惩罚三部分加权构成,公式如下: Loss=1Ni=1N(J(yi,y^i)+λ1L(xi,x^i)+λ2SparseLoss(codei))Loss=\frac{1}{N}\sum\nolimits_{i=1}^{N}\left(\mathcal{J}(y_{i},{\hat{y}}_{i})+\lambda_{1}\mathcal{L}\left(x_{i},{\hat{x}}_{i}\right)+\lambda_{2}SparseLoss(code_{i})\right) 其中,J\mathcal{J}L\mathcal{L} 为距离度量函数(如MSE),λ1\lambda_1λ2\lambda_2 为超参数,SparseLossSparseLoss 为稀疏化惩罚项[9][12]。 5. 稀疏化惩罚:可采用KL散度形式,公式如下: i[ρlogρρi+(1ρ)log(1ρ1ρi)]\sum_{i}\left[\rho\mathrm{log}{\frac{\rho}{\rho_{i}}}+(1-\rho)\mathrm{log}({\frac{1-\rho}{1-\rho_{i}}})\right] 其中 ρi\rho_i 为第 ii 个神经元在批次样本中的平均激活值,ρ\rho 为设定的稀疏化参数[12][13]。 6. 训练方式:采用年度滚动增量训练,每次训练取五组不同随机种子(seed)的结果进行平均,以生成样本外预测信号[13][15]。 * 模型评价:模型训练过程较为稳定,但存在一定的随机性,不过随机性对最终结果的影响可能有限[2][23][26]。 2. 预处理方法:小波变换去噪 * 构建思路:为了降低金融量价时序数据中的噪声含量,缓解神经网络因数据量不足导致的过拟合风险,采用小波变换对数据进行分解重构,保留长期趋势、中期波动和短期震荡成分,过滤掉噪声[19]。 * 具体构建过程: 1. 选取父小波 φ\varphi 和母小波 ψ\psi 函数,它们彼此正交[19]。 2. 定义 jj 阶小波函数: φjk=2j/2φ(2jk)\varphi_{jk}=2^{-j/2}\varphi(2^{-j}-k) ψjk=2j/2ψ(2jk)\psi_{jk}=2^{-j/2}\psi(2^{-j}-k)[19] 3. 将标准化后的时间序列 x(t)x(t) 通过小波函数投影进行多级分解与重建,本算法级别 JJ 取值为4。重建公式为: x(t)=ksj,kφj,k+kdj,kψj,k++kd1,kψ1,kx(t)=\sum\nolimits_{k}s_{j,k}\varphi_{j,k}+\sum\nolimits_{k}d_{j,k}\psi_{j,k}+\ldots+\sum\nolimits_{k}d_{1,k}\psi_{1,k} 其中系数通过以下公式计算: SJ,k=φJ,kx(s)dsS_{J,k}=\int\varphi_{J,k}x(s)ds dj,k=ψJ,kx(s)dsd_{j,k}=\int\psi_{J,k}x(s)ds[20] 4. 将去噪后的数据作为稀疏自编码模型的输入[21]。 3. 输入特征集 * 构建思路:使用基于指数日K线字段(高开低收、成交额、成交量)构建的常见技术特征作为模型输入,涵盖不同时间尺度信息,未进行人工筛选以避免过拟合[16][18]。 * 具体特征:共计92个特征,分为四大类: 1. 基础K线量价字段:如标准化价格、换手率、振幅及其滚动统计量(均值、分位数)[16]。 2. 均线及相对位置指标:如滚动N日均线、不同周期均线相对位置[16]。 3. 波动率类指标:如滚动N日收益率及换手率波动率[16]。 4. 基础技术指标:如不同参数的RSI、OBV、MACD等。其中: * RSI = (N日内收盘涨幅绝对值之和) / (N日内收盘跌幅绝对值之和)[16] * OBV = N日内收盘涨跌符号乘以换手率之和[16] * MACD计算方式:DIF=12日EMA-26日EMA,DEA=DIF的9日EMA,MACD指标=DIF-DEA[16][17] 模型的回测效果 (回测区间:2020年1月1日至2025年12月31日,交易规则:根据T日收盘信号于T+1日收盘价交易,不考虑费用[27]) 1. 中证500指数择时策略 (阈值k=0.2%) * 多空策略:年化收益43.86%,年化波动率21.21%,夏普比率2.07,最大回撤-14.00%,Calmar比率3.13[29]。 * 只做多策略:年化收益23.30%,年化波动率16.82%,夏普比率1.39,最大回撤-16.04%,Calmar比率1.45[33]。 * 只做空策略:年化收益16.68%,年化波动率13.04%,夏普比率1.28,最大回撤-14.30%,Calmar比率1.17[34]。 2. 中证1000指数择时策略 (阈值k=0.2%) * 多空策略:年化收益50.47%,交易次数246次,胜率54.64%,最大回撤-30.03%[43]。 * 只做多策略:年化收益26.00%,年化波动率18.49%,夏普比率1.41,最大回撤-22.08%,Calmar比率1.18[46]。 * 只做空策略:年化收益20.01%,年化波动率15.73%,夏普比率1.27,最大回撤-19.85%,Calmar比率1.01[47]。 3. 其他宽基指数只做多策略 * 中证2000指数:年化收益32.56%,年化波动率20.13%,夏普比率1.62,最大回撤-25.59%,Calmar比率1.27[55]。 * 中证全指:年化收益18.83%,年化波动率14.90%,夏普比率1.26,最大回撤-16.95%,Calmar比率1.11[56]。