量化模型与构建方式 1. 模型名称:稀疏自编码择时模型 (Sparse Auto Encoder, SAE)[7] * 模型构建思路:针对指数择时数据量少、噪声高、特征有效性波动大的问题,对标准自编码器进行改进,通过引入稀疏化惩罚和自回归损失,使模型能够自动进行特征筛选和信息提纯,提高鲁棒性和抗过拟合能力,以学习指数涨跌规律[2][7][11]。 * 模型具体构建过程: 1. 模型结构:模型分为稀疏自编码器和预测器两部分[8]。 2. 编码与解码:输入特征 通过编码器(Encoder)压缩为低维编码 ,再通过解码器(Decoder)重构为 [8]。 3. 预测:将编码器输出的隐藏层特征 通过预测器(Predictor)得到未来收益率的预测值 [8]。 4. 损失函数:总损失函数由预测损失、自回归损失和稀疏化惩罚三部分加权构成,公式如下: 其中, 和 为距离度量函数(如MSE), 和 为超参数, 为稀疏化惩罚项[9][12]。 5. 稀疏化惩罚:可采用KL散度形式,公式如下: 其中 为第 个神经元在批次样本中的平均激活值, 为设定的稀疏化参数[12][13]。 6. 训练方式:采用年度滚动增量训练,每次训练取五组不同随机种子(seed)的结果进行平均,以生成样本外预测信号[13][15]。 * 模型评价:模型训练过程较为稳定,但存在一定的随机性,不过随机性对最终结果的影响可能有限[2][23][26]。 2. 预处理方法:小波变换去噪 * 构建思路:为了降低金融量价时序数据中的噪声含量,缓解神经网络因数据量不足导致的过拟合风险,采用小波变换对数据进行分解重构,保留长期趋势、中期波动和短期震荡成分,过滤掉噪声[19]。 * 具体构建过程: 1. 选取父小波 和母小波 函数,它们彼此正交[19]。 2. 定义 阶小波函数: [19] 3. 将标准化后的时间序列 通过小波函数投影进行多级分解与重建,本算法级别 取值为4。重建公式为: 其中系数通过以下公式计算: [20] 4. 将去噪后的数据作为稀疏自编码模型的输入[21]。 3. 输入特征集 * 构建思路:使用基于指数日K线字段(高开低收、成交额、成交量)构建的常见技术特征作为模型输入,涵盖不同时间尺度信息,未进行人工筛选以避免过拟合[16][18]。 * 具体特征:共计92个特征,分为四大类: 1. 基础K线量价字段:如标准化价格、换手率、振幅及其滚动统计量(均值、分位数)[16]。 2. 均线及相对位置指标:如滚动N日均线、不同周期均线相对位置[16]。 3. 波动率类指标:如滚动N日收益率及换手率波动率[16]。 4. 基础技术指标:如不同参数的RSI、OBV、MACD等。其中: * RSI = (N日内收盘涨幅绝对值之和) / (N日内收盘跌幅绝对值之和)[16] * OBV = N日内收盘涨跌符号乘以换手率之和[16] * MACD计算方式:DIF=12日EMA-26日EMA,DEA=DIF的9日EMA,MACD指标=DIF-DEA[16][17] 模型的回测效果 (回测区间:2020年1月1日至2025年12月31日,交易规则:根据T日收盘信号于T+1日收盘价交易,不考虑费用[27]) 1. 中证500指数择时策略 (阈值k=0.2%) * 多空策略:年化收益43.86%,年化波动率21.21%,夏普比率2.07,最大回撤-14.00%,Calmar比率3.13[29]。 * 只做多策略:年化收益23.30%,年化波动率16.82%,夏普比率1.39,最大回撤-16.04%,Calmar比率1.45[33]。 * 只做空策略:年化收益16.68%,年化波动率13.04%,夏普比率1.28,最大回撤-14.30%,Calmar比率1.17[34]。 2. 中证1000指数择时策略 (阈值k=0.2%) * 多空策略:年化收益50.47%,交易次数246次,胜率54.64%,最大回撤-30.03%[43]。 * 只做多策略:年化收益26.00%,年化波动率18.49%,夏普比率1.41,最大回撤-22.08%,Calmar比率1.18[46]。 * 只做空策略:年化收益20.01%,年化波动率15.73%,夏普比率1.27,最大回撤-19.85%,Calmar比率1.01[47]。 3. 其他宽基指数只做多策略 * 中证2000指数:年化收益32.56%,年化波动率20.13%,夏普比率1.62,最大回撤-25.59%,Calmar比率1.27[55]。 * 中证全指:年化收益18.83%,年化波动率14.90%,夏普比率1.26,最大回撤-16.95%,Calmar比率1.11[56]。
量化择时系列研究之一:基于稀疏自编码器的指数择时模型
华源证券·2026-02-02 17:17