QuantaAlpha
搜索文档
量化研究参考系列之一:QuantaAlpha:用大模型做量化因子挖掘
东方证券· 2026-04-07 22:13
QuantaAlpha框架:量化模型与因子总结 量化模型与构建方式 1. **模型名称:QuantaAlpha框架**[2][6][11] * **模型构建思路**:将大语言模型与进化算法深度融合,通过多智能体协作模拟专业量化研究员“提出假设→构建因子→回测检验→迭代优化→因子池维护”的全流程,实现自动化、白盒化、可溯源的Alpha因子挖掘[6][11][16]。 * **模型具体构建过程**: 1. **初始假设生成**:由LLM基于价量背离、波动率状态等经典量化维度,生成10个独立互补的初始投资假设,并行挖掘以拓宽研究广度[17]。 2. **多智能体协同实现**: * **Idea Agent(想法智能体)**:将宏观研究方向细化为具备清晰市场机制、明确信号逻辑和限定参数范围的可执行结构化假设[18][19]。 * **Factor Agent(因子智能体)**:采用“符号化表达+抽象语法树(AST)”方式,将结构化假设转化为标准数学表达式,经结构校验后编译为可执行代码。同时施加三重约束:语义一致性(假设、表达式、代码逻辑统一)、复杂度(控制表达式长度与特征数量)、冗余性(通过结构匹配过滤相似因子)[19]。 * **Evaluation Agent(评估智能体)**:基于Qlib回测框架进行标准化回测,评估因子IC、Rank IC、年化收益、最大回撤等指标,并将结果录入轨迹档案[19]。 3. **迭代优化**: * **变异(Mutation)**:由LLM回溯研究轨迹,精准定位导致因子失效的关键步骤,仅对问题部分进行修正,保留已验证的有效逻辑[20]。 * **交叉(Crossover)**:从历史优质挖掘轨迹中提取核心逻辑片段(如有效动量信号、波动率判断逻辑),在投资假设层面进行有意义的逻辑组合与重构,而非简单公式拼接[20]。 4. **因子筛选**:设置三层入池门槛:1) 按Rank IC从高到低排序;2) 与池中已有因子的绝对相关系数≤0.7;3) 因子池容量上限为当轮总因子数的50%[21]。 * **模型评价**:该框架突破了传统遗传规划的随机试错和同类LLM方法的迭代低效、语义漂移等问题,实现了金融逻辑引导、定向进化、研究经验复用和全流程可解释,为量化Alpha因子研究提供了新的技术思路[11][14][27][28]。 2. **模型名称:DFQ遗传规划价量因子挖掘系统(作为对比基准)**[23] * **模型构建思路**:传统遗传规划方法,通过自定义特征和算子,指定适应度指标,从一个随机种群出发,通过多代进化得到更优子代,以挖掘显式表达式的选股因子[23]。 * **模型具体构建过程**: 1. **初始种群**:按照预设的公式树深度随机生成[24]。 2. **进化方式**:变异(如子树变异、点变异)和交叉完全随机,本质是对公式树进行排列组合[25]。 3. **冗余管控**:采用“被动约束+数值惩罚”组合,如限制公式长度、在适应度评价中添加相关性数值惩罚[29]。 4. **可解释性**:先生成符合统计规律的公式,再反向解读可能的市场逻辑[29]。 * **模型评价**:可解释性强,但进化过程高度随机、缺乏金融逻辑引导,挖掘效率低,易生成无经济学含义的噪声因子[13][24][25][29]。 模型的回测效果 1. **QuantaAlpha模型(论文实证)**[32][33] * **股票池**:沪深300 * **测试区间**:2022-01-01 至 2025-12-26 * **IC**:15.01% * **Rank IC**:14.65% * **年化收益率(ARR)**:27.75% * **最大回撤(MDD)**:7.98% * **信息比率(IR)**:332.51% * **卡玛比率(CR)**:347.74% 2. **AlphaAgent模型(对比基准)**[33] * **股票池**:沪深300 * **测试区间**:2022-01-01 至 2025-12-26 * **IC**:9.66% * **Rank IC**:9.42% * **年化收益率(ARR)**:15.54% * **最大回撤(MDD)**:12.89% * **信息比率(IR)**:193.28% * **卡玛比率(CR)**:120.56% 3. **RD-Agent模型(对比基准)**[33] * **股票池**:沪深300 * **测试区间**:2022-01-01 至 2025-12-26 * **IC**:5.31% * **Rank IC**:6.33% * **年化收益率(ARR)**:9.91% * **最大回撤(MDD)**:14.82% * **信息比率(IR)**:125.02% * **卡玛比率(CR)**:66.87% 4. **QuantaAlpha模型(团队复现)**[37][39] * **股票池**:沪深300 * **测试区间**:2022-01-01 至 2025-12-26(严格样本外) * **核心结果**:累计挖掘21个因子,因子层面IC、Rank IC处于有效区间但ICIR偏低;组合层面扣费后年化超额收益有限,最大回撤幅度较大,净值曲线波动明显[39]。 量化因子与构建方式 *(注:报告未详细列出由QuantaAlpha框架挖掘出的具体单个因子的名称、公式及独立构建过程,而是重点阐述了生成这些因子的自动化框架和方法论。因此,此处总结框架所生成因子的通用构建特征。)* 1. **因子构建的通用特征**: * **数据基础**:使用开盘价、最高价、最低价、收盘价、成交量、均价(VWAP)这6类日频价量数据作为基础特征[32]。 * **算子库**:采用时间序列、截面、数学、技术指标、逻辑、辅助等6大类约60个通用量化算子[32]。 * **构建逻辑**:遵循“先有明确市场逻辑,再转化为可计算公式与代码”的路径,确保因子具备经济学意义和可解释性[31]。 * **约束条件**:在构建过程中受到表达式复杂度(如符号表达式长度≤250字符)、底层原始特征数量(≤6个)及语义一致性等多重约束[19][30]。 因子的回测效果 *(注:报告未提供框架所挖掘的各个具体因子的独立回测指标值。回测效果均以模型或因子组合的形式呈现,已汇总于“模型的回测效果”部分。)*