量化研究参考系列之一：QuantaAlpha：用大模型做量化因子挖掘

QuantaAlpha框架：量化模型与因子总结量化模型与构建方式 1. 模型名称：QuantaAlpha框架[2][6][11] * 模型构建思路：将大语言模型与进化算法深度融合，通过多智能体协作模拟专业量化研究员“提出假设→构建因子→回测检验→迭代优化→因子池维护”的全流程，实现自动化、白盒化、可溯源的Alpha因子挖掘[6][11][16]。 * 模型具体构建过程： 1. 初始假设生成：由LLM基于价量背离、波动率状态等经典量化维度，生成10个独立互补的初始投资假设，并行挖掘以拓宽研究广度[17]。 2. 多智能体协同实现： * Idea Agent（想法智能体）：将宏观研究方向细化为具备清晰市场机制、明确信号逻辑和限定参数范围的可执行结构化假设[18][19]。 * Factor Agent（因子智能体）：采用“符号化表达+抽象语法树（AST）”方式，将结构化假设转化为标准数学表达式，经结构校验后编译为可执行代码。同时施加三重约束：语义一致性（假设、表达式、代码逻辑统一）、复杂度（控制表达式长度与特征数量）、冗余性（通过结构匹配过滤相似因子）[19]。 * Evaluation Agent（评估智能体）：基于Qlib回测框架进行标准化回测，评估因子IC、Rank IC、年化收益、最大回撤等指标，并将结果录入轨迹档案[19]。 3. 迭代优化： * 变异（Mutation）：由LLM回溯研究轨迹，精准定位导致因子失效的关键步骤，仅对问题部分进行修正，保留已验证的有效逻辑[20]。 * 交叉（Crossover）：从历史优质挖掘轨迹中提取核心逻辑片段（如有效动量信号、波动率判断逻辑），在投资假设层面进行有意义的逻辑组合与重构，而非简单公式拼接[20]。 4. 因子筛选：设置三层入池门槛：1) 按Rank IC从高到低排序；2) 与池中已有因子的绝对相关系数≤0.7；3) 因子池容量上限为当轮总因子数的50%[21]。 * 模型评价：该框架突破了传统遗传规划的随机试错和同类LLM方法的迭代低效、语义漂移等问题，实现了金融逻辑引导、定向进化、研究经验复用和全流程可解释，为量化Alpha因子研究提供了新的技术思路[11][14][27][28]。 2. 模型名称：DFQ遗传规划价量因子挖掘系统（作为对比基准）[23] * 模型构建思路：传统遗传规划方法，通过自定义特征和算子，指定适应度指标，从一个随机种群出发，通过多代进化得到更优子代，以挖掘显式表达式的选股因子[23]。 * 模型具体构建过程： 1. 初始种群：按照预设的公式树深度随机生成[24]。 2. 进化方式：变异（如子树变异、点变异）和交叉完全随机，本质是对公式树进行排列组合[25]。 3. 冗余管控：采用“被动约束+数值惩罚”组合，如限制公式长度、在适应度评价中添加相关性数值惩罚[29]。 4. 可解释性：先生成符合统计规律的公式，再反向解读可能的市场逻辑[29]。 * 模型评价：可解释性强，但进化过程高度随机、缺乏金融逻辑引导，挖掘效率低，易生成无经济学含义的噪声因子[13][24][25][29]。模型的回测效果 1. QuantaAlpha模型（论文实证）[32][33] * 股票池：沪深300 * 测试区间：2022-01-01 至 2025-12-26 * IC：15.01% * Rank IC：14.65% * 年化收益率（ARR）：27.75% * 最大回撤（MDD）：7.98% * 信息比率（IR）：332.51% * 卡玛比率（CR）：347.74% 2. AlphaAgent模型（对比基准）[33] * 股票池：沪深300 * 测试区间：2022-01-01 至 2025-12-26 * IC：9.66% * Rank IC：9.42% * 年化收益率（ARR）：15.54% * 最大回撤（MDD）：12.89% * 信息比率（IR）：193.28% * 卡玛比率（CR）：120.56% 3. RD-Agent模型（对比基准）[33] * 股票池：沪深300 * 测试区间：2022-01-01 至 2025-12-26 * IC：5.31% * Rank IC：6.33% * 年化收益率（ARR）：9.91% * 最大回撤（MDD）：14.82% * 信息比率（IR）：125.02% * 卡玛比率（CR）：66.87% 4. QuantaAlpha模型（团队复现）[37][39] * 股票池：沪深300 * 测试区间：2022-01-01 至 2025-12-26（严格样本外） * 核心结果：累计挖掘21个因子，因子层面IC、Rank IC处于有效区间但ICIR偏低；组合层面扣费后年化超额收益有限，最大回撤幅度较大，净值曲线波动明显[39]。量化因子与构建方式（注：报告未详细列出由QuantaAlpha框架挖掘出的具体单个因子的名称、公式及独立构建过程，而是重点阐述了生成这些因子的自动化框架和方法论。因此，此处总结框架所生成因子的通用构建特征。） 1. 因子构建的通用特征： * 数据基础：使用开盘价、最高价、最低价、收盘价、成交量、均价（VWAP）这6类日频价量数据作为基础特征[32]。 * 算子库：采用时间序列、截面、数学、技术指标、逻辑、辅助等6大类约60个通用量化算子[32]。 * 构建逻辑：遵循“先有明确市场逻辑，再转化为可计算公式与代码”的路径，确保因子具备经济学意义和可解释性[31]。 * 约束条件：在构建过程中受到表达式复杂度（如符号表达式长度≤250字符）、底层原始特征数量（≤6个）及语义一致性等多重约束[19][30]。因子的回测效果 （注：报告未提供框架所挖掘的各个具体因子的独立回测指标值。回测效果均以模型或因子组合的形式呈现，已汇总于“模型的回测效果”部分。）