Time - GRPO方法
搜索文档
学海拾珠系列之二百七十一:基于时间序列推理的金融技术分析
华安证券· 2026-04-16 16:58
量化模型与构建方式 1. 模型名称:语言化技术分析 (VTA) - **模型构建思路**:为了解决LLM在金融时间序列预测中可解释性与精度难以兼顾的问题,提出一个融合语言推理与时间序列预测的框架[4][19]。该框架旨在将股价历史数据转换为可解释的语言推理链,并以此条件化调节预测输出,实现准确且可解释的股票预测[4][19]。 - **模型具体构建过程**:VTA框架包含三个核心组件[4][25]: 1. **时间序列推理模块**:将股价时间序列数据通过文本标注器转换为包含统计信息和金融技术指标的文本描述[30]。使用提出的Time-GRPO方法训练LLM,使其基于这些文本标注生成语言推理链[19][30]。Time-GRPO的训练目标结合了格式奖励和基于预测精度的逆MSE奖励[32]。训练流水线分为三个阶段:冷启动RL微调、基于拒绝采样的监督微调(SFT)、以及为技术分析任务优化的RL微调[33]。 2. **时间序列预测模块**:采用基于LLM的骨干模型进行跨模态对齐[35]。具体过程为:将时间序列输入X通过嵌入层和多头注意力层,获得投影时间token $F_{time}$[35]。对LLM的词嵌入进行PCA降维获得主要词嵌入 $\hat{E}_{text}$[35]。将 $F_{time}$ 和 $\hat{E}_{text}$ 通过多头交叉注意力层进行对齐,得到对齐后的文本token $X_{text}$,计算公式为: $$X_{t e x t}=\,S o f t m a x(\,Q K^{\mathsf{T}}\,/\,\sqrt{C}\,)\,V,$$ 其中 $Q = F_{time}W_Q$, $K = \hat{E}_{text}W_K$, $V = \hat{E}_{text}W_V$[35]。$F_{time}$ 和 $X_{text}$ 被送入连续的Transformer模块,并通过特征正则化损失 $\mathcal{L}_{feature}$ 和输出匹配损失 $\mathcal{L}_{output}$ 来引导模态对齐[35]。 3. **联合条件训练模块**:以推理模型输出的描述性属性类别c(如最大值、最小值、均值)为条件,对时间序列预测模型的输出进行调节[38]。模型同时训练条件预测和无条件预测,损失函数为: $${\mathcal{L}}_{\mathrm{forecast}}(\phi)=\mathbb{E}\mathbf{x},\mathbf{y},\mathbf{c}\left[\left\|{\hat{\mathbf{y}}}_{\psi}(\mathbf{X},{\bar{\mathbf{c}}})-\mathbf{y}\right\|^{2}\right],$$ 其中 $\tilde{\bf c}$ 以概率 $p_{uncond}$ 被替换为无条件标识符[38]。最终预测为条件预测与无条件预测的加权组合: $${\hat{\mathbf{y}}}=s\cdot{\hat{\mathbf{y}}}_{\psi}(\mathbf{X},\mathbf{c})+(1-s)\cdot{\hat{\mathbf{y}}}_{\theta}(\mathbf{X})$$ 其中s为引导尺度超参数[38]。 - **模型评价**:VTA框架成功地将语言推理与时间序列预测有效结合,在保持预测精度的同时提供了可解释性[5][47]。其多阶段微调流水线和联合条件训练设计被证明对提升性能至关重要[48]。 2. 模型/方法名称:Time-GRPO - **构建思路**:为优化LLM在时间序列推理任务中的表现,在分组相对策略优化(GRPO)的基础上进行改进,提出专门用于时间序列推理的强化学习训练目标Time-GRPO[19][30]。其目的是教会LLM生成能够提高时间序列预测精度的语言推理链[32]。 - **具体构建过程**:Time-GRPO的训练目标结合了两种奖励[32]: 1. **格式奖励**:强制模型在生成推理链时使用特定的标签(如`<think>`和`</think>`)来包裹思考过程[32]。 2. **逆MSE奖励**:旨在最大化时间序列预测的期望精度,奖励函数定义为: $$R(\hat{y}) = 1 / ( \lambda \cdot ||\hat{y} - y||_2^2 )$$ 其中 $\lambda$ 是超参数,$\hat{y}$ 是模型预测的时间序列,$y$ 是真实值。使用逆MSE是因为奖励分数需要被最大化[32]。 模型通过多阶段强化学习流水线(冷启动RL、SFT、任务优化RL)使用该目标进行优化[33]。 3. 因子/指标名称:技术分析指标(用于文本标注) - **构建思路**:为了给LLM提供可解释的金融信号作为推理依据,从股价数据中提取经典的技术分析指标,并将其转化为文本描述[30][31]。这些指标是金融从业者广泛使用的分析工具,蕴含了预测信号[17]。 - **具体构建过程**:通过文本标注函数f,将时间序列输入X转换为包含以下指标的文本标注 $X'$[30]。报告中列举了部分指标及其计算公式[31]: - **简单移动平均(SMA)**:$$SMA = (1/n) \Sigma Price_i$$ - **指数移动平均(EMA)**:$$EMA_t = Price_t \cdot \alpha + EMA_{t-1} \cdot (1-\alpha)$$ - **动量(Momentum)**:$$Momentum = Close_t - Close_{t-n}$$ - **相对强弱指数(RSI)**:$$RSI = 100 - 100/ (1+AvgGain/AvgLoss)$$ - **MACD线**:$$MACD = EMA_{12} - EMA_{26}$$ - **威廉指标(%R)**:$$Williams \%R = (HH-Close) / (HH-LL) \times (-100)$$ - **布林带(Bollinger Bands)**:上轨=$MA+k\cdot\sigma$、下轨=$MA-k\cdot\sigma$ - **随机振荡指标(Stochastic Oscillator)**:$$\%K = (Close-LL) / (HH-LL) \times 100$$ - **因子评价**:这些指标为LLM提供了结构化的、可解释的金融领域先验知识,是模型能够进行高质量语言推理的基础[31][57]。消融实验表明,移除这些指标会导致预测性能下降,证明了其有效性[52][53]。 模型的回测效果 1. VTA模型 - **预测精度指标 (All Data 平均值)**:MSE为0.1178,MAE为0.2122[47]。 - **投资组合指标 (各数据集平均值)**:年化收益率为0.2409,波动率为0.1185,最大回撤为-0.0883,夏普比率(IR)为1.7190[70]。 2. 基准模型(部分列举) 以下为报告中部分表现较好的基准模型在“All Data”上的平均预测精度及投资组合夏普比率[47][70]: - **CALF**:MSE为0.1235,MAE为0.2180;夏普比率为1.4566[47][70]。 - **TimeLLM**:MSE为0.1262,MAE为0.2210;夏普比率为1.5230[47][70]。 - **TimesNet**:MSE为0.1286,MAE为0.2229;夏普比率为1.2748[47][70]。 - **Autoformer**:MSE为0.1290,MAE为0.2297;夏普比率为1.4736[47][70]。 - **Non-stationary Transformer**:MSE为0.1380,MAE为0.2300;夏普比率为1.4430[47][70]。 - **FiLM**:MSE为0.1449,MAE为0.2385;夏普比率为1.4421[47][70]。 - **DeepSeek-R1**:MSE为0.1428,MAE为0.2323;夏普比率为1.4074[47][70]。 - **GPT-4.1 mini**:MSE为0.2014,MAE为0.2376;夏普比率为1.3096[47][70]。 因子的回测效果 (注:报告未提供单个技术分析因子独立的选股或预测能力测试结果,因子作为整体被用于VTA模型的文本标注输入,其效果体现在VTA模型的整体性能提升中[30][47][53]。)