Level 2数据
搜索文档
【广发金工】日内高频知情交易因子:海量Level 2数据因子挖掘系列(七)
广发金融工程研究· 2026-05-14 07:32
文章核心观点 - 量化投资在股票市场博弈中胜出的关键在于对数据的全面收集和深度分析,利用数学模型和算法从海量数据中挖掘隐藏的市场规律[1][5] - 市场存在信息不对称,知情交易者的行为会在高频买卖订单流中留下痕迹,通过构建基于Level-2逐笔订单数据的高频知情交易因子(VPIN类和DPIN类),可以捕捉这些信息并获取超额收益[2][3][12] - 研究构建了39个日内高频知情交易因子,其中9个表现较优的因子在历史回测中展现出显著的选股能力和超额收益,且与现有主流因子库的相关性较低,具有独立的信息价值[3][4][61] Level 1与Level 2行情数据介绍 - Level 1数据为3秒一笔的快照数据,包含5档买卖盘口、成交量、成交额等基础信息[6][7] - Level 2数据不仅提供更丰富的快照数据(如10档买卖盘口、撤单信息),还提供了精确到毫秒的逐笔订单数据,这是所有行情数据的根源,为深度因子挖掘提供了基础[6][7] - 利用Level 2数据中的详细快照和逐笔订单数据,可以分析价格趋势、周期波动和交易信号,从而挖掘更有效的选股因子[6] 相关研究工作(海量Level 2数据因子挖掘系列) - 该系列前期研究报告已从Level 2逐笔订单数据中挖掘了数百个有效因子,涵盖大小单、长短单、集合竞价、市价订单、重点时段等多个维度[10] - 部分绩优因子(如keyperiod_ret_zero、bigbuy_bigsell、longsell等)已被纳入因子数据库近2年,跟踪表现优异,在2020年1月1日至2026年4月30日期间,历史RankIC均值最高达11.01%,历史胜率最高达86.10%[10][11] - 前期构建的因子组合表现出色,例如精选大小单因子组合历史RankIC均值为9.2%,胜率为76.0%;精选长短单因子组合历史RankIC均值为13.1%,胜率为80.3%[10] 日内高频知情交易因子构建与表现 - **VPIN类因子**:通过度量全天主买与主卖在成交量、成交额、成交笔数上的不平衡,构建了VPIN_vol、VPIN_amt、VPIN_cnt三个因子,直接反映多空筹码失衡程度[3][13] - 在2019年3月1日至2026年4月30日的回测期内,VPIN_vol因子十分档多头组合年化收益率为16.53%,相比中证全指的超额年化收益率为8.72%,RankIC均值为10.05%,方向胜率为73.6%[3][24] - **DPIN类因子**:在动态日内知情交易概率模型框架下,通过结合3种行为特征(基础、大单、小单)、4种时间特征(全天、早盘、盘中、尾盘)和3种统计特征(均值、标准差、稳定性),构建了36个DPIN类因子[13][16][17][18] - 多个DPIN因子表现出色,例如DPIN_base_total_std因子的月度RankIC大于8%,方向胜率接近70%[3] - DPIN_big_am_std因子(早盘大单知情交易概率的标准差)在2019年至2026年回测期内,Q1多头组合年化收益率为14.43%,超额中证全指的年化收益为6.82%[31] - DPIN_small_am_mean因子(早盘小单知情交易概率的均值)的Q1多头组合在同期总收益率为108.64%,年化收益率为10.73%[41] 因子相关性分析 - 从39个因子中挑选出的9个表现较优的知情交易因子,与Barra风格因子、深度学习因子以及系列前序研究中的各类因子进行了相关性分析[4][61] - 整体而言,这些因子与现有各类因子的相关系数大多保持在0.5以内,部分因子表现出较强的独立性[4][61] - 具体来看,VPIN_vol因子与Barra流动性因子相关系数为-0.51,与长短单因子中的shortbuy_shortsell相关系数为-0.64,显示了一定的差异性[62][65] - DPIN类因子与集合竞价、市价订单等因子的相关性也普遍较低,例如DPIN_base_total_std与transaction_order_ratio_oa的相关系数为-0.42[66][67]