因子挖掘

搜索文档
开源量化评论(109):深度学习赋能技术分析
开源证券· 2025-06-25 21:22
量化模型与构建方式 1. **模型名称:LSTMtech** - **模型构建思路**:直接使用LSTM模型对股价数据(开、高、低、收、成交量)及技术指标进行因子挖掘[15] - **模型具体构建过程**:输入层为原始量价数据及talib生成的技术指标,采用6年训练集+2年验证集的滚动训练方式,每年更新模型参数[15] - **模型评价**:多头分组效果不够单调,但整体选股能力稳定[15] 2. **模型名称:LSTMdeap_tech** - **模型构建思路**:先通过遗传算法挖掘有效技术因子,再与原始数据共同输入LSTM模型[24][26] - **模型具体构建过程**: 1. 使用遗传算法在2010-2016年数据中挖掘有效因子(框架见图4)[20][22] 2. 将遗传算法因子与原始技术指标合并作为LSTM输入[26] 3. 保持相同的滚动训练机制(6年训练+2年验证)[26] - **模型评价**:绩效显著优于纯LSTM模型,且能覆盖原始LSTM因子的alpha信息[26] 3. **模型名称:LSTMgraph** - **模型构建思路**:将技术指标转化为人为定义的状态变量后输入LSTM[33][41] - **模型具体构建过程**: 1. 对K线形态(实体/影线)和技术指标(如均线相对位置)进行状态编码[33] 2. 合成1-20日K线状态变量作为输入[41] 3. 采用相同LSTM框架训练[41] - **模型评价**:解决了CNN图形识别耗时耗资源的问题,同时保留形态特征[32][41] 4. **复合模型名称:LSTMdeap_tech_graph** - **模型构建思路**:等权合成LSTMdeap_tech与LSTMgraph因子[47][49] - **模型具体构建过程**: 1. 验证两因子相关性(51.48%)及残差选股效果(见图16)[47][49] 2. 直接等权加权合成[49] - **模型评价**:多维度技术信号互补,绩效进一步提升[49] 5. **复合模型名称:LSTMdeap_tech_graph_pro** - **模型构建思路**:将LSTMdeap_tech_graph与交易行为因子LSTMpro等权合成[54] - **模型具体构建过程**:基于38.61%的低相关性直接合成[54] - **模型评价**:多头超额收益显著提升,收益波动比优化[54] --- 量化因子与构建方式 1. **因子名称:Tech_similarity** - **构建思路**:基于技术指标状态匹配历史相似形态[35] - **具体构建过程**: 1. 按月回看5个交易日,匹配股价/MACD/涨跌停/成交量状态[35] 2. 计算匹配日后续20天超额收益均值[35] $$因子值=\frac{1}{5}\sum_{i=1}^{5} (匹配日_i未来20天超额收益)$$ 2. **因子名称:K_similarity** - **构建思路**:基于K线形态匹配历史相似模式[39] - **具体构建过程**: 1. 对日/周/月K线及成交量状态编码[39] 2. 采用与Tech_similarity相同的计算逻辑[39] 3. **复合因子名称:Tech_K_similarity** - **构建思路**:等权合成Tech_similarity与K_similarity[40] - **具体构建过程**:验证两因子25.49%相关性后直接合成[40] --- 模型的回测效果 | 模型名称 | RankIC(2019-) | RankICIR | 多空年化收益 | 多头超额年化 | |------------------------|---------------|----------|--------------|--------------| | LSTMtech | 7.42% | 4.25 | 24.02% | - | [15] | LSTMdeap_tech | 9.27% | 4.54 | 32.44% | - | [26] | LSTMgraph | 9.01% | 4.70 | 32.25% | - | [41][44] | LSTMdeap_tech_graph | 10.89% | 4.99 | 37.28% | 9.40% | [49] | LSTMdeap_tech_graph_pro | 11.93% | - | 39.85% | 11.34% | [54] --- 因子的回测效果 | 因子名称 | RankIC(2013-) | RankICIR | 多空年化收益 | |-------------------|---------------|----------|--------------| | Tech_similarity | 4.97% | 3.05 | 20.22% | [35][37] | K_similarity | 5.10% | 3.09 | 19.25% | [39][42] | Tech_K_similarity | 5.89% | 3.25 | 25.97% | [40][43]
因子选股系列之一一六:NeuralODE:时序动力系统重构下深度学习因子挖掘模型
东方证券· 2025-05-27 16:43
量化模型与构建方式 1. **模型名称**:RNN+Neural ODE+MLP融合模型 **模型构建思路**:通过RNN进行时序数据压缩和降维,利用Neural ODE学习时序演化规律重构数据,最后通过MLP捕捉alpha信息以提升选股鲁棒性[3][6]。 **模型具体构建过程**: - **Encoder层(RNN)**:对时序数据降维和特征提取。 - **Decoder层(Neural Jump SDE)**:拟合时序数据的微分动力系统,重构数据。公式: $$\left\{\begin{array}{l}dx(t)=v(x(t),t)dt+\sigma(x(t),t)dB(t),t\in[0,T]\\ \hat{y}=F(x(T))\\ x(0)=\hat{x}\end{array}\right.$$ 其中$v$和$\sigma$为全连接层加激活函数构成[22][26]。 - **MLP层**:对重构数据提取特征预测收益率。损失函数包括重构损失、KL散度和MSE损失: $$\alpha\log(p(x|\theta))+\beta\operatorname{KL}(N(\mu,e x p(\sigma/2))||N(0,\delta I))+(\hat{\sigma}-y)^{2}$$[31][32] **模型评价**:通过数据重构降低噪声影响,提升样本外泛化能力[3][34]。 2. **模型名称**:Baseline模型(ABCM模型) **模型构建思路**:基于神经网络的alpha和beta因子协同挖掘,生成选股因子[37]。 **模型评价**:作为对比基准,新模型在多头超额和抗风险能力上显著优于Baseline[39][43]。 3. **衍生模型**: - **Model1**:Neural ODE生成因子与Baseline因子等权组合[42]。 - **Model2**:Neural SDE生成因子与Baseline因子等权组合[42]。 - **Model3**:Model1因子剥离短期风险后的残差因子[42]。 --- 量化因子与构建方式 1. **因子名称**:Model1因子 **因子构建思路**:基于RNN+Neural ODE+MLP模型生成的alpha因子,通过数据重构增强稳定性[6][26]。 **因子评价**:多头超额显著提升,换手率降低,抗极端市场能力更强[39][43]。 2. **因子名称**:行业轮动因子 **因子构建思路**:将选股因子按行业流通市值加权聚合,生成行业得分[50][51]。 **因子评价**:Model1因子行业RankIC达12.55%,Top组年化超额25.27%,优于Baseline[52][53]。 --- 模型的回测效果 1. **RNN+Neural ODE+MLP模型(Model1)**: - **RankIC均值**:16.33%(中证全指)[39] - **Top组年化超额**:54.54%[39] - **最大回撤**:-6.63%(2024年)[43] - **换手率**:59.73%(较Baseline下降)[39] 2. **Baseline模型**: - **RankIC均值**:16.39%[39] - **Top组年化超额**:52.63%[39] - **最大回撤**:-5.25%[43] 3. **行业轮动表现**: - **Model1因子**:RankIC 12.55%,Top组超额25.27%[52] - **Baseline因子**:RankIC 12.20%,Top组超额23.05%[52] --- 因子的回测效果 1. **指数增强策略**: - **沪深300指增**:Model1年化超额16.67%,夏普比率3.14[65]。 - **中证500指增**:Model1年化超额21.37%,夏普比率3.21[72]。 - **中证1000指增**:Model1年化超额32.41%,夏普比率4.37[80]。 2. **Top组合绝对收益**: - **Model1**:年化收益43.80%,最大回撤-40.84%[59]。 - **Baseline**:年化收益40.15%,最大回撤-42.41%[59]。 --- 关键公式总结 1. **Neural SDE前向传播**: $$\left\{\begin{array}{l}dx(t)=v(x(t),t)dt+\sigma(x(t),t)dB(t)\\ \hat{y}=F(x(T))\\ x(0)=\hat{x}\end{array}\right.$$[22] 2. **总损失函数**: $$\alpha\log(p(x|\theta))+\beta\operatorname{KL}(N(\mu,e x p(\sigma/2))||N(0,\delta I))+(\hat{\sigma}-y)^{2}$$[32]
中金 | 大模型系列(2):LLM在个股投研的应用初探
中金点睛· 2025-05-09 07:33
LLM在个股投研的应用 - 核心观点:大语言模型(LLM)技术可构建智能化个股复盘框架和基本面因子生成框架,提升投研效率[1][7] - 应用场景:主观逻辑因子化和个股复盘是LLM在个股投研中较好的应用方向[1] - 优势:LLM处理非结构化数据能力较强,可提炼关键信息并给出定量化结论[7] 基于LLM的基本面因子挖掘框架 - 关键点:Prompt设计是引导因子创造方向的核心,明确选股逻辑方向可提高生成高IC因子概率[2][16] - 成果:LLM挖掘的因子IC_IR可达0.78,如链税研协同效能因子(TRI_RDEFF)[3][20] - 优势:生成因子可理解性强,可运用创新算子优化原有因子,如盈利现金双因子(EPCF)[20][22] LLM因子挖掘效果分析 - 质量类prompt生成因子IC均值较高,如盈利能力稳定且财务风险低的上市公司因子[17] - 创新性prompt生成因子与已有因子相关性低,如HR_ASSET_RESO因子相关性低于30%[20] - 问题:部分因子逻辑与计算过程匹配度较低,如EIM_1因子[19] 基于LLM的个股复盘体系 - 方法:运用RAG方法构建每日复盘体系,处理公告、研报等非结构化数据[4][27] - 优势:与现有数据库无缝衔接,提炼信息真实性好,逻辑自洽性较好[4][47] - 效果:贵州茅台案例显示模型复盘观点对长期股价表现有一定预测能力[30][35] 个股复盘实证结果 - 长期综合评分变化与未来20-60日股价表现弱相关,相关系数达0.274[37] - 多头择时策略可改善最大回撤,把握主升浪机会,年化收益率提升[38][47] - 问题:信息提炼深度有限,需在prompt中明确核心影响因素[32][34] 技术限制与优化方向 - 限制:响应速度不足、上下文长度限制、结果随机性[8] - 优化:筛选高质量研报作为输入,针对特定个股定制prompt[34] - 应用范围:建议在核心股票池范围内构建LLM因子[10]
海能投顾大数据中心打造精准投资决策支持系统
搜狐财经· 2025-05-08 19:57
金融大数据中心建设 - 公司投入逾2亿元建设分布式计算集群 具备每日处理10PB级金融数据的能力 [1] - "数据立方"系统整合传统金融数据、另类数据及卫星遥感信息等多元数据源 [1] - 独家开发的商业活力指数通过分析全国3800个商圈的手机信令数据 提前2-3个季度预测消费趋势变化 [1] 数据分析技术应用 - 自然语言处理引擎实时解析全球76种语言的财经资讯 情感分析准确率达92.4% [1] - 美联储议息会议纪要解读中 系统30秒内完成300页文档结构化处理 效率较人工提升400倍 [1] - "因子工场"平台沉淀超过1200个有效阿尔法因子 多因子模型在A股市场实现年化21.3%收益 [1] 投资决策支持系统 - 数据中台采用微服务架构 策略回测时间从3天缩短至2小时 [2] - 2023年平台支持产出187个有效投资策略 其中63个投入实战并取得优异表现 [2] - 正在测试量子计算在组合优化中的应用 预计将大规模资产配置求解时间从数小时压缩至分钟级 [2] 创新因子研发成果 - 独创"产业链传导因子"通过分析上下游企业订单数据 成功捕捉新能源行业三次重大拐点 [1] - 商业活力指数在2023年消费板块布局中取得超额收益达15.2% [1]
【广发金工】“追踪聪明基金经理”的因子研究
广发金融工程研究· 2025-05-07 09:36
因子开发与迭代 - 传统多因子模型收益下降,因子开发和迭代更新变得重要[1] - 低频数据因子开发难度增大,增量信息有限[1] - 高频数据具有体量大、拥挤度低、相关性低等优势[4][5] - 低频因子开发更多从另类数据和新理论成果出发[6] 指增ETF因子构建 - 利用指数增强型ETF每日申购赎回清单(PCF)披露数据构建因子[8] - 计算基金经理实际配置权重与基准指数权重的超低配比例[20] - 对超低配比例进行横截面标准化处理[21] - 因子构建覆盖沪深300、中证500、中证1000和中证2000指数[16] 因子回测表现 - 分组收益在四大指数中均呈现单调递增特征[22] - 沪深300成分股中IC均值2.09%,胜率62.42%[40] - 中证500成分股中IC均值3.78%,胜率64.33%[43] - 中证1000成分股中IC均值2.75%,胜率72.32%[44] - 中证2000成分股中IC均值3.14%,胜率60.00%[47] 多空策略表现 - 沪深300多空累计收益率9.63%,年化3.09%[51] - 中证500多空累计收益率67.02%,年化18.52%[55] - 中证1000多空累计收益率31.26%,年化13.46%[58] - 中证2000多空累计收益率24.55%,年化20.96%[61] 总结 - 因子通过追踪基金经理操作偏好获取超额收益[62] - 在中证500和中证1000指数中表现最为突出[62] - 小盘风格崛起为中小市值指数超额收益提供机会[62] - 方法在后疫情时代能更好捕捉结构性机会[63]
【广发金工】AlphaForge:基于梯度下降的因子挖掘
广发金融工程研究· 2025-04-30 10:21
公式化因子挖掘与AlphaForge框架 - 神经网络模型能有效预测股票截面收益率差异,构造更多公式化特征可丰富模型输入[1] - 传统方法如遗传规划和OpenFE存在优化方向随机、过拟合等问题[3][9] - AlphaForge通过生成器和预测器设计实现梯度下降优化,解决传统方法缺陷[10][13][14] AlphaForge技术架构 - 生成器采用DCGAN网络和Masker结构,保证连续可导实现梯度传播[23][26][28] - 预测器使用卷积结构学习因子表达式与IC得分的对应关系[29] - 损失函数设计包含因子得分和多样性惩罚项[15] 因子挖掘效果 - 100个样本外因子IC均值4.24%,最高7.10%,最低2.29%,中位数4.34%[38][39] - 因子间截面相关性均值9.31%,时序相关性均值18.57%[43][44] - 因子表达式长度多在2-20之间,可解释性一般但有效性突出[46][47] 因子合成表现 - LGBM和等权合成因子IC均值分别为11.68%和13.29%,相关性54.23%[53] - 进一步合成后IC均值提升至13.85%,年化超额17.33%,回撤-5.41%[53] - 在沪深300、中证500、中证1000股票池中均表现稳定[58][60][64] 指数增强策略 - 沪深300指增年化超额9.28%,回撤-7.25%,信息比率1.90[74] - 中证500指增年化超额10.98%,回撤-10.65%[76][77] - 中证1000指增表现最优,年化超额14.28%,回撤-10.96%,信息比率2.27[79][80] 框架优势总结 - 相比传统方法实现梯度下降优化,避免随机生成缺陷[82] - 生成器-预测器结构保证因子生成的连续性和有效性[82] - 滚动训练验证显示框架在不同市场环境下的稳定性[33][82]