量化研究参考系列之一:QuantaAlpha:用大模型做量化因子挖掘
东方证券·2026-04-07 22:13

QuantaAlpha框架:量化模型与因子总结 量化模型与构建方式 1. 模型名称:QuantaAlpha框架[2][6][11] * 模型构建思路:将大语言模型与进化算法深度融合,通过多智能体协作模拟专业量化研究员“提出假设→构建因子→回测检验→迭代优化→因子池维护”的全流程,实现自动化、白盒化、可溯源的Alpha因子挖掘[6][11][16]。 * 模型具体构建过程: 1. 初始假设生成:由LLM基于价量背离、波动率状态等经典量化维度,生成10个独立互补的初始投资假设,并行挖掘以拓宽研究广度[17]。 2. 多智能体协同实现: * Idea Agent(想法智能体):将宏观研究方向细化为具备清晰市场机制、明确信号逻辑和限定参数范围的可执行结构化假设[18][19]。 * Factor Agent(因子智能体):采用“符号化表达+抽象语法树(AST)”方式,将结构化假设转化为标准数学表达式,经结构校验后编译为可执行代码。同时施加三重约束:语义一致性(假设、表达式、代码逻辑统一)、复杂度(控制表达式长度与特征数量)、冗余性(通过结构匹配过滤相似因子)[19]。 * Evaluation Agent(评估智能体):基于Qlib回测框架进行标准化回测,评估因子IC、Rank IC、年化收益、最大回撤等指标,并将结果录入轨迹档案[19]。 3. 迭代优化: * 变异(Mutation):由LLM回溯研究轨迹,精准定位导致因子失效的关键步骤,仅对问题部分进行修正,保留已验证的有效逻辑[20]。 * 交叉(Crossover):从历史优质挖掘轨迹中提取核心逻辑片段(如有效动量信号、波动率判断逻辑),在投资假设层面进行有意义的逻辑组合与重构,而非简单公式拼接[20]。 4. 因子筛选:设置三层入池门槛:1) 按Rank IC从高到低排序;2) 与池中已有因子的绝对相关系数≤0.7;3) 因子池容量上限为当轮总因子数的50%[21]。 * 模型评价:该框架突破了传统遗传规划的随机试错和同类LLM方法的迭代低效、语义漂移等问题,实现了金融逻辑引导、定向进化、研究经验复用和全流程可解释,为量化Alpha因子研究提供了新的技术思路[11][14][27][28]。 2. 模型名称:DFQ遗传规划价量因子挖掘系统(作为对比基准)[23] * 模型构建思路:传统遗传规划方法,通过自定义特征和算子,指定适应度指标,从一个随机种群出发,通过多代进化得到更优子代,以挖掘显式表达式的选股因子[23]。 * 模型具体构建过程: 1. 初始种群:按照预设的公式树深度随机生成[24]。 2. 进化方式:变异(如子树变异、点变异)和交叉完全随机,本质是对公式树进行排列组合[25]。 3. 冗余管控:采用“被动约束+数值惩罚”组合,如限制公式长度、在适应度评价中添加相关性数值惩罚[29]。 4. 可解释性:先生成符合统计规律的公式,再反向解读可能的市场逻辑[29]。 * 模型评价:可解释性强,但进化过程高度随机、缺乏金融逻辑引导,挖掘效率低,易生成无经济学含义的噪声因子[13][24][25][29]。 模型的回测效果 1. QuantaAlpha模型(论文实证)[32][33] * 股票池:沪深300 * 测试区间:2022-01-01 至 2025-12-26 * IC:15.01% * Rank IC:14.65% * 年化收益率(ARR):27.75% * 最大回撤(MDD):7.98% * 信息比率(IR):332.51% * 卡玛比率(CR):347.74% 2. AlphaAgent模型(对比基准)[33] * 股票池:沪深300 * 测试区间:2022-01-01 至 2025-12-26 * IC:9.66% * Rank IC:9.42% * 年化收益率(ARR):15.54% * 最大回撤(MDD):12.89% * 信息比率(IR):193.28% * 卡玛比率(CR):120.56% 3. RD-Agent模型(对比基准)[33] * 股票池:沪深300 * 测试区间:2022-01-01 至 2025-12-26 * IC:5.31% * Rank IC:6.33% * 年化收益率(ARR):9.91% * 最大回撤(MDD):14.82% * 信息比率(IR):125.02% * 卡玛比率(CR):66.87% 4. QuantaAlpha模型(团队复现)[37][39] * 股票池:沪深300 * 测试区间:2022-01-01 至 2025-12-26(严格样本外) * 核心结果:累计挖掘21个因子,因子层面IC、Rank IC处于有效区间但ICIR偏低;组合层面扣费后年化超额收益有限,最大回撤幅度较大,净值曲线波动明显[39]。 量化因子与构建方式 (注:报告未详细列出由QuantaAlpha框架挖掘出的具体单个因子的名称、公式及独立构建过程,而是重点阐述了生成这些因子的自动化框架和方法论。因此,此处总结框架所生成因子的通用构建特征。) 1. 因子构建的通用特征: * 数据基础:使用开盘价、最高价、最低价、收盘价、成交量、均价(VWAP)这6类日频价量数据作为基础特征[32]。 * 算子库:采用时间序列、截面、数学、技术指标、逻辑、辅助等6大类约60个通用量化算子[32]。 * 构建逻辑:遵循“先有明确市场逻辑,再转化为可计算公式与代码”的路径,确保因子具备经济学意义和可解释性[31]。 * 约束条件:在构建过程中受到表达式复杂度(如符号表达式长度≤250字符)、底层原始特征数量(≤6个)及语义一致性等多重约束[19][30]。 因子的回测效果 (注:报告未提供框架所挖掘的各个具体因子的独立回测指标值。回测效果均以模型或因子组合的形式呈现,已汇总于“模型的回测效果”部分。)

量化研究参考系列之一:QuantaAlpha:用大模型做量化因子挖掘 - Reportify