时序数据增强技术概述 - 时序数据增强通过平移、缩放、扰动、裁剪、合成等策略提升模型泛化能力,适用于金融场景中低信噪比数据的信号提取[1][4] - 技术可无缝嵌入传统机器学习、深度学习及强化学习系统,拓展量化策略表达能力[1][4] - 方法分类包括随机变换、特征混合和生成模型三大类,其中随机变换涵盖幅值域、时域和频域三个维度的操作[9][39][47] 随机变换增强方法 幅值域变换 - 抖动(Jittering):添加高斯噪声(σ=0.03)提升模型抗扰动能力,缓解数据漂移问题[11][13][14] - 旋转(Rotation):多变量序列中应用随机旋转矩阵,但可能破坏经济含义的结构关系[15][17] - 缩放(Scaling):采用α∈[0.8,1.2]的随机系数统一调整幅度,模拟不同波动强度[19] - 幅度扭曲(Magnitude Warping):通过控制节点(μ=1,σ=0.2)生成平滑调节曲线实现局部调制[20][24] 时域变换 - 切片(Slicing):截取长度W的子序列(W=20)保留局部时间结构[25][27] - 片段重排(Permutation):将序列切分为N段(N=3)后随机打乱顺序,仅适用于时序不敏感任务[28][30] - 时间扭曲(Time Warping):采用三次样条插值构建非线性映射曲线,模拟市场异常波动[31][35] 频域变换 - 频率扭曲(Frequency Warping):通过VTLP方法重构梅尔滤波器组频率分布[36] - 傅里叶变换方法:在幅度谱和相位谱中注入噪声拓展频谱形态[37] - 频谱增强(Spectrogram Augmentation):直接对频谱图实施时间/频率掩蔽操作[38] 特征混合增强方法 - 幅值域混合:采用SMOTE算法在同类序列间线性插值(β=0.5)生成新样本[40][41] - 时域混合:基于DTW对齐"教师-学生"序列时间结构,保留原始能量分布[43][44] - 频域混合:EMDA方法选择性增强特定频带(如5-10Hz),创造新听觉特征[45] - 多域混合:SPAWNER方法引入随机路径约束,构建多样化时间变形路径[46] 生成模型增强方法 - 统计生成模型:LGT模型结合全局趋势与局部波动,提升LSTM预测性能[48][49] - 神经网络生成模型:LSTM-GAN在ECG数据增强中效果优于传统方法,F1-score提升12%[56][57] GRU模型实证结果 训练策略对比 - 固定概率(p=0.5):jittering因子RankIC胜率提升1.2%,scaling因子多头年化收益达18.05%[64][68] - 线性衰减概率(p:1→0):等权合成因子RankIC均值提升1.2%,多空年化收益达56.38%[71][75] 因子表现 - 最佳增强方式:jittering在线性衰减模式下RankIC达13.3%,多空收益55.35%[75] - 最差增强方式:rotation在固定模式下RankICIR降至0.88,多空收益仅30.44%[68] - 相关性分析:jittering/scaling与原始数据相关系数1.0,rotation仅0.02[61] 应用前景 - 技术可适配不同数据类型(量价/基本面)、频率(日频/分钟频)及模型架构(Transformer/TCN)[112] - 在生物信号处理、语音识别等领域已验证有效性,金融时序增强尚处探索阶段[24][38]
【广发金工】面向通用模型的时序数据增强方法
广发金融工程研究·2025-07-31 11:11