因子手工作坊系列(4):当大单不再可靠:基于撤单行为的机构交易识别
西部证券·2026-02-24 19:21

核心观点 - 报告提出了一种从算法交易视角识别机构行为的新方法,即通过分析“下单-撤单时间差”的规律性来定位算法交易驱动的撤单行为,并以此构建了具有稳定选股能力的因子[1] - 报告认为,在算法交易已成为机构主流执行方式的市场环境下,基于交易机制和时间结构识别机构行为,比单纯依赖订单金额的传统方法更具合理性与研究价值[1] - 报告构建的买单算法交易撤单占比因子(BABR)选股表现优异,且与公募基金整体的投资风格有较强一致性,提供了一种高频跟踪公募行为的方式[1] 研究背景与问题提出 - 传统的基于挂单金额大小(如大单、小单)来识别机构行为的方法在实践中存在明显缺陷,因为挂单金额与股价直接相关,高价股一手委托金额可能远超“小单”阈值[10] - 数据显示,每笔交易的平均金额持续下降,而小单中机构订单的占比自2017年以来呈现明显、持续的上升趋势,严重动摇了“小单为散户,大单为机构”的传统假设[11][12] - 小单中机构订单占比上升与算法交易在机构投资者中的普及密切相关,算法交易会将大订单拆分执行,因此识别思路应从订单大小转向对算法交易行为的定位[12] 算法交易撤单的识别方法 - 研究发现,撤单行为比下单行为更易暴露算法交易的规则化特征,人工撤单的“下单-撤单时间差”应呈现随机特征,而实际数据在若干离散时点出现了显著的脉冲式集中[17][18] - 通过分析下单后10秒内的撤单时间分布,发现撤单高度集中于0秒附近、1秒、5秒及1分钟内3秒整数倍(如3秒、6秒、9秒)等时点[22] - 报告将连续竞价阶段,下单-撤单时间差落在1秒、5秒或1分钟内3秒整数倍前后20毫秒内的撤单,识别为由算法交易驱动的行为[24] 算法交易撤单占比因子的构建与测试 - 首先构建了两个基础因子:算法交易撤单量占比(ACVR)和算法交易撤单笔数占比(ACCR),逻辑是算法交易撤单占比高可能意味着机构参与积极,该股票应有更高预期收益[28] - 回测区间为2017年至2025年,ACCR因子的全区间RankIC为0.051,双周度胜率67.3%,多空组合年化收益率25.1%,表现优于ACVR因子(RankIC 0.026,年化收益15.9%)[30][32] - 使用撤单笔数构建的ACCR因子表现优于撤单量,因为撤单量不对应真实成交,且大额限价单的反复报撤会扭曲因子值,而撤单笔数能更好地抑制噪音[35] - 全市场ACCR因子均值从2017-2018年初的1%-2%,上升至2022年后的6%-8%区间波动,反映了算法交易在机构投资者中从初步应用到普及并趋于稳定的过程[39] 买单算法交易撤单占比因子(BABR)的表现 - 在ACCR基础上加入买单方向,构建了买单算法交易撤单笔数占全部买单撤单笔数的因子(BABR),逻辑是买入方向的算法撤单占比高更能表征机构建仓意愿和信心[42] - BABR因子表现优异,全区间RankIC为0.058,ICIR接近0.55,双周度胜率超过70%,多空组合年化收益率达27.8%[2][43] - BABR因子多头组(组5)扣费后净值与万得偏股混合型基金指数(885001.WI)净值走势较为一致,日收益率相关性达到0.59,表明该因子能在一定程度上捕捉公募机构的行为[45] 因子的风格特征与独立性 - BABR因子的风格暴露不同于传统量价因子,其多头组偏好高估值、高弹性(与Beta正相关)、低财务杠杆的股票[49] - 全区间内,BABR因子与账面市值比、盈利及杠杆等Barra风格因子保持稳定负相关,与市值因子相关性较弱(全区间-2.39%)[47] - 对BABR因子进行市值中性化处理后,其全区间RankIC微升至0.059,ICIR升至0.568,胜率升至72.14%,表明市值影响有限,因子能提供独立信息增益[50][52] - BABR因子与基于逐笔成交数据开发的深度学习因子的相关系数为-0.25,提供了相对独立的信息增益[3][57] 因子拓展分析 - BABR因子在不同指数成分股内的选股效果存在差异,在中证1000和中证2000成分股内的IC(分别为0.046和0.068)显著优于在沪深300和中证500内的表现[58] - 报告认为,大盘股中可能包含大量ETF被动资金交易或机构出于配置目的的算法交易,削弱了因子的选股信号;而小盘股中出现较高的算法撤单占比,更可能是机构持有积极观点的信号[60] - 卖单算法撤单占比因子同样有效,其IC也为正,但略弱于买单因子,表明算法交易撤单占比可能更多刻画了机构对股票的整体关注和参与强度,而非买卖方向[61][62] - 因子在流动性高的股票中选股效果更佳,双重排序检验显示,在流动性最高的股票组中,BABR因子的RankIC达到0.088,多空收益率为50.61%;而在流动性最差的组中,RankIC仅0.013,几乎失效[67][68]