时间序列预测
搜索文档
学海拾珠系列之二百七十一:基于时间序列推理的金融技术分析
华安证券· 2026-04-16 16:58
量化模型与构建方式 1. 模型名称:语言化技术分析 (VTA) - **模型构建思路**:为了解决LLM在金融时间序列预测中可解释性与精度难以兼顾的问题,提出一个融合语言推理与时间序列预测的框架[4][19]。该框架旨在将股价历史数据转换为可解释的语言推理链,并以此条件化调节预测输出,实现准确且可解释的股票预测[4][19]。 - **模型具体构建过程**:VTA框架包含三个核心组件[4][25]: 1. **时间序列推理模块**:将股价时间序列数据通过文本标注器转换为包含统计信息和金融技术指标的文本描述[30]。使用提出的Time-GRPO方法训练LLM,使其基于这些文本标注生成语言推理链[19][30]。Time-GRPO的训练目标结合了格式奖励和基于预测精度的逆MSE奖励[32]。训练流水线分为三个阶段:冷启动RL微调、基于拒绝采样的监督微调(SFT)、以及为技术分析任务优化的RL微调[33]。 2. **时间序列预测模块**:采用基于LLM的骨干模型进行跨模态对齐[35]。具体过程为:将时间序列输入X通过嵌入层和多头注意力层,获得投影时间token $F_{time}$[35]。对LLM的词嵌入进行PCA降维获得主要词嵌入 $\hat{E}_{text}$[35]。将 $F_{time}$ 和 $\hat{E}_{text}$ 通过多头交叉注意力层进行对齐,得到对齐后的文本token $X_{text}$,计算公式为: $$X_{t e x t}=\,S o f t m a x(\,Q K^{\mathsf{T}}\,/\,\sqrt{C}\,)\,V,$$ 其中 $Q = F_{time}W_Q$, $K = \hat{E}_{text}W_K$, $V = \hat{E}_{text}W_V$[35]。$F_{time}$ 和 $X_{text}$ 被送入连续的Transformer模块,并通过特征正则化损失 $\mathcal{L}_{feature}$ 和输出匹配损失 $\mathcal{L}_{output}$ 来引导模态对齐[35]。 3. **联合条件训练模块**:以推理模型输出的描述性属性类别c(如最大值、最小值、均值)为条件,对时间序列预测模型的输出进行调节[38]。模型同时训练条件预测和无条件预测,损失函数为: $${\mathcal{L}}_{\mathrm{forecast}}(\phi)=\mathbb{E}\mathbf{x},\mathbf{y},\mathbf{c}\left[\left\|{\hat{\mathbf{y}}}_{\psi}(\mathbf{X},{\bar{\mathbf{c}}})-\mathbf{y}\right\|^{2}\right],$$ 其中 $\tilde{\bf c}$ 以概率 $p_{uncond}$ 被替换为无条件标识符[38]。最终预测为条件预测与无条件预测的加权组合: $${\hat{\mathbf{y}}}=s\cdot{\hat{\mathbf{y}}}_{\psi}(\mathbf{X},\mathbf{c})+(1-s)\cdot{\hat{\mathbf{y}}}_{\theta}(\mathbf{X})$$ 其中s为引导尺度超参数[38]。 - **模型评价**:VTA框架成功地将语言推理与时间序列预测有效结合,在保持预测精度的同时提供了可解释性[5][47]。其多阶段微调流水线和联合条件训练设计被证明对提升性能至关重要[48]。 2. 模型/方法名称:Time-GRPO - **构建思路**:为优化LLM在时间序列推理任务中的表现,在分组相对策略优化(GRPO)的基础上进行改进,提出专门用于时间序列推理的强化学习训练目标Time-GRPO[19][30]。其目的是教会LLM生成能够提高时间序列预测精度的语言推理链[32]。 - **具体构建过程**:Time-GRPO的训练目标结合了两种奖励[32]: 1. **格式奖励**:强制模型在生成推理链时使用特定的标签(如`<think>`和`</think>`)来包裹思考过程[32]。 2. **逆MSE奖励**:旨在最大化时间序列预测的期望精度,奖励函数定义为: $$R(\hat{y}) = 1 / ( \lambda \cdot ||\hat{y} - y||_2^2 )$$ 其中 $\lambda$ 是超参数,$\hat{y}$ 是模型预测的时间序列,$y$ 是真实值。使用逆MSE是因为奖励分数需要被最大化[32]。 模型通过多阶段强化学习流水线(冷启动RL、SFT、任务优化RL)使用该目标进行优化[33]。 3. 因子/指标名称:技术分析指标(用于文本标注) - **构建思路**:为了给LLM提供可解释的金融信号作为推理依据,从股价数据中提取经典的技术分析指标,并将其转化为文本描述[30][31]。这些指标是金融从业者广泛使用的分析工具,蕴含了预测信号[17]。 - **具体构建过程**:通过文本标注函数f,将时间序列输入X转换为包含以下指标的文本标注 $X'$[30]。报告中列举了部分指标及其计算公式[31]: - **简单移动平均(SMA)**:$$SMA = (1/n) \Sigma Price_i$$ - **指数移动平均(EMA)**:$$EMA_t = Price_t \cdot \alpha + EMA_{t-1} \cdot (1-\alpha)$$ - **动量(Momentum)**:$$Momentum = Close_t - Close_{t-n}$$ - **相对强弱指数(RSI)**:$$RSI = 100 - 100/ (1+AvgGain/AvgLoss)$$ - **MACD线**:$$MACD = EMA_{12} - EMA_{26}$$ - **威廉指标(%R)**:$$Williams \%R = (HH-Close) / (HH-LL) \times (-100)$$ - **布林带(Bollinger Bands)**:上轨=$MA+k\cdot\sigma$、下轨=$MA-k\cdot\sigma$ - **随机振荡指标(Stochastic Oscillator)**:$$\%K = (Close-LL) / (HH-LL) \times 100$$ - **因子评价**:这些指标为LLM提供了结构化的、可解释的金融领域先验知识,是模型能够进行高质量语言推理的基础[31][57]。消融实验表明,移除这些指标会导致预测性能下降,证明了其有效性[52][53]。 模型的回测效果 1. VTA模型 - **预测精度指标 (All Data 平均值)**:MSE为0.1178,MAE为0.2122[47]。 - **投资组合指标 (各数据集平均值)**:年化收益率为0.2409,波动率为0.1185,最大回撤为-0.0883,夏普比率(IR)为1.7190[70]。 2. 基准模型(部分列举) 以下为报告中部分表现较好的基准模型在“All Data”上的平均预测精度及投资组合夏普比率[47][70]: - **CALF**:MSE为0.1235,MAE为0.2180;夏普比率为1.4566[47][70]。 - **TimeLLM**:MSE为0.1262,MAE为0.2210;夏普比率为1.5230[47][70]。 - **TimesNet**:MSE为0.1286,MAE为0.2229;夏普比率为1.2748[47][70]。 - **Autoformer**:MSE为0.1290,MAE为0.2297;夏普比率为1.4736[47][70]。 - **Non-stationary Transformer**:MSE为0.1380,MAE为0.2300;夏普比率为1.4430[47][70]。 - **FiLM**:MSE为0.1449,MAE为0.2385;夏普比率为1.4421[47][70]。 - **DeepSeek-R1**:MSE为0.1428,MAE为0.2323;夏普比率为1.4074[47][70]。 - **GPT-4.1 mini**:MSE为0.2014,MAE为0.2376;夏普比率为1.3096[47][70]。 因子的回测效果 (注:报告未提供单个技术分析因子独立的选股或预测能力测试结果,因子作为整体被用于VTA模型的文本标注输入,其效果体现在VTA模型的整体性能提升中[30][47][53]。)
别再用黑盒预测了!即插即用模块通过前置分解让iTransformer/PatchTST既准又可解释
量子位· 2026-04-02 13:30
文章核心观点 - 上海交通大学与麦考瑞大学联合提出了一种名为MLOW的全新前置分解范式,旨在解决深度时间序列预测模型的“黑盒”困境 [4] - MLOW通过频域幅度谱的低秩分解,能够在不改动主干模型结构的前提下,提升模型性能并提供清晰的可解释性,将趋势、周期与噪声成分解耦 [4] - 该方法基于一个关键发现:时间序列可以表示为频域幅度谱与带相位信息的周期基函数的组合,且不同数据集的幅度谱呈现出显著且可观测的分布模式 [4] 全新分解范式与核心方法 - **频域能量低秩分解**:MLOW从频域出发,对频谱幅度进行低秩分解,从而提取趋势与周期等主要结构 [5] - **Hyperplane-NMF**:这是一种全新的针对频域幅度低秩分解方法,兼具可解释性、泛化能力与高效推理能力 [6] - **宽松的超参选择**:该方法通过数学推理保证,可自由选择频域维度和时域维度,解决了传统方法中频域泄露的问题 [7] - **数学形式**:MLOW将输入时间序列表示为幅度、相位感知基函数和均值截距的组合,并通过低秩分量和新系数进行重构 [8] - **Hyperplane-NMF的优势**:该方法在测试时无需像标准NMF那样重新优化系数矩阵W,梯度更新方向完全顺从目标函数,且系数W的可解释性更强,可通过超平面投影进行可视化 [9][10] - **方法对比**:Hyperplane-NMF在可解释性、对新数据的高效处理及泛化能力方面,相较于NMF、Semi-NMF和PCA具有优势 [11] 可解释性与可视化 - **宽松的超参选择**:通过引入额外过去信息扩展频域维度,并截取最新的相位基函数,实现了频域与时域维度的自由选择 [12] - **可解释性分解**:MLOW可以清晰可视化时间序列被分解为V个低维表示的过程,展示学习到的低秩分量、新能量系数W和重构后的基函数P [12] - **成分解耦**:每个数据集的低秩分量可以有效反映时间序列中主要周期性成分与趋势性成分来自于哪些频域 [14] - **可视化展示**:MLOW能够有效解耦和分解主要周期性成分与趋势性成分,并对噪音具有鲁棒性 [15] 实验结果 - **性能表现**:在多个真实数据集(如电力、交通、气象等)上,MLOW显著优于传统分解方法及多种先进深度学习模型,表现出更强的鲁棒性和稳定性 [16] - **模型增强**:MLOW可在几乎不改变模型的情况下,显著增强经典时序模型如iTransformer和PatchTST,其表现远超现有方法 [16] - **具体数据**:在PEMS03数据集上,iTransformer+MLOW的MSE为0.086,MAE为0.186;PatchTST+MLOW的MSE为0.108,MAE为0.222,均优于DUET、CycleNet、SparseTSF、TimeKAN、TimesNet和Time Mixer等对比方法 [19] - 在PEMS08数据集上,iTransformer+MLOW的MSE为0.081,MAE为0.173;PatchTST+MLOW的MSE为0.120,MAE为0.232 [19] - 在ECL数据集上,iTransformer+MLOW的MSE为0.155,MAE为0.248;PatchTST+MLOW的MSE为0.173,MAE为0.281 [19] - 在Traffic数据集上,iTransformer+MLOW的MSE为0.393,MAE为0.250;PatchTST+MLOW的MSE为0.405,MAE为0.294 [19] 总结与意义 - MLOW为时间序列预测提供了一种全新的思路,将模型从“黑盒预测”转向“可解释建模”,被认为具有重要的理论意义与实际价值 [20]
服务全商业场景智能预测 蚂蚁国际开源“鹰序”AI预测大模型
环球网· 2025-11-12 17:25
模型发布与开源 - 蚂蚁国际在新加坡金融科技节上正式开源其自主研发的"鹰序"AI预测大模型 [1] - 该模型是业内首个基于多分段模式并采用混合专家架构的大规模时序预测基础模型,参数规模超过25亿 [1] - 模型在多个权威基准评测中取得最优性能表现,并已在GitHub、Hugging Face及蚂蚁国际平台全面开放 [1] 模型性能与应用效果 - 模型可按小时、天或周进行预测,准确率超过90% [3] - 在金融领域应用能帮助企业将外汇成本降低最高到60% [3] - 应用于企业资金管理可根据业务模式助运营成本减少30%至50% [3] 行业应用拓展 - 模型除金融领域外,还可用于预测天气变化、节假日消费、金融市场波动、跨境人流等时间序列数据 [3] - 公司正与航空、银行、在线旅游和电商等行业合作伙伴探索具体应用 [3] - 在航空业试点项目中,模型用于优化汇率对冲策略并显示外汇成本显著降低 [3] 市场背景与战略意义 - 2025年全球航空旅客量预计达98亿人次,逼近100亿里程碑 [3] - AI驱动的精准预测关乎企业利润,并可能转化为终端消费者的票价优惠与服务稳定性 [3] - 开源战略旨在赋能更多行业,携手学界和产业界共同推进AI技术迭代升级及在实体经济中的应用 [3]